高维可尝试方向

Tan Jay / 2022-10-17

高维问题

曾力立说，

传统的数据处理方法在处理高维数据时不能满足稳健性要求；
高维导致空间的样本数变少，从而使得一些统计上的渐近性难以实现；
维数的增加亦会导致数据的计算量迅速上升。

方江林说，

维数的增大会导致“维数灾难”问题；
经典大样本统计推断理论一般都是建立在维数固定且相对较小，而样本量趋于无穷的假设下，在数据维数p随着样本容量n一起趋向无穷时，特别是在“超高维”(p > n)数据情形下，经典统计理论的结论可能不再有效。

方向

方向一

根据石坚《高维线性模型中的经验似然》思想，说明高维空间模型中，在适当的正则条件下，可对经验似然比统计量进行修正，并且修正后的经验似然比统计量服从标准正态分布。

实际进展见此。

方向二

当 $\beta$ 有很多分量为零，可以做变量选择，比如Lasso、惩罚经验似然，先选出非零的分量，然后对被选出来的非零分量做统计推断。

方向三

当 $\beta$ 有很多分量不为零，简单地考虑变量选择是不够的，根据 曾力立《高维线性回归模型下的经验似然》思想，说明高维空间模型中可以建立简单经验似然统计量，并且证明该统计量服从 $\chi^2_1$ ，从模拟的角度说明，犯两类错误的概率令人满意，且大大节省了计算成本。