高维可尝试方向
Tan Jay / 2022-10-17
高维问题
曾力立说,
- 传统的数据处理方法在处理高维数据时不能满足稳健性要求;
- 高维导致空间的样本数变少,从而使得一些统计上的渐近性难以实现;
- 维数的增加亦会导致数据的计算量迅速上升。
方江林说,
- 维数的增大会导致“维数灾难”问题;
- 经典大样本统计推断理论一般都是建立在维数固定且相对较小,而样本量趋于无穷的假设下,在数据维数p随着样本容量n一起趋向无穷时,特别是在“超高维”(p > n)数据情形下,经典统计理论的结论可能不再有效。
方向
方向一
根据 石坚《高维线性模型中的经验似然》思想,说明高维空间模型中,在适当的正则条件下,可对经验似然比统计量进行修正,并且修正后的经验似然比统计量服从标准正态分布。
实际进展见此。
方向二
当 $\beta$
有很多分量为零,可以做变量选择,比如Lasso、惩罚经验似然,先选出非零的分量,然后对被选出来的非零分量做统计推断。
方向三
当 $\beta$
有很多分量不为零,简单地考虑变量选择是不够的,根据 曾力立《高维线性回归模型下的经验似然》思想,说明高维空间模型中可以建立简单经验似然统计量,并且证明该统计量服从 $\chi^2_1$
,从模拟的角度说明,犯两类错误的概率令人满意,且大大节省了计算成本。