Tan Jay

高维可尝试方向

Tan Jay / 2022-10-17


高维问题

曾力立说,

  1. 传统的数据处理方法在处理高维数据时不能满足稳健性要求;
  2. 高维导致空间的样本数变少,从而使得一些统计上的渐近性难以实现;
  3. 维数的增加亦会导致数据的计算量迅速上升。

方江林说,

  1. 维数的增大会导致“维数灾难”问题;
  2. 经典大样本统计推断理论一般都是建立在维数固定且相对较小,而样本量趋于无穷的假设下,在数据维数p随着样本容量n一起趋向无穷时,特别是在“超高维”(p > n)数据情形下,经典统计理论的结论可能不再有效。

方向

方向一

根据 石坚《高维线性模型中的经验似然》思想,说明高维空间模型中,在适当的正则条件下,可对经验似然比统计量进行修正,并且修正后的经验似然比统计量服从标准正态分布。

实际进展见此

方向二

$\beta$ 有很多分量为零,可以做变量选择,比如Lasso、惩罚经验似然,先选出非零的分量,然后对被选出来的非零分量做统计推断。

方向三

$\beta$ 有很多分量不为零,简单地考虑变量选择是不够的,根据 曾力立《高维线性回归模型下的经验似然》思想,说明高维空间模型中可以建立简单经验似然统计量,并且证明该统计量服从 $\chi^2_1$,从模拟的角度说明,犯两类错误的概率令人满意,且大大节省了计算成本。