Tan Jay

高维文献摘录

Tan Jay / 2022-10-16


奠基

当协变量的维数随样本量增加时,常规的经验似然推断失效,在适当的正则条件下,对修正的经验似然比统计量给出了渐近分布理论。

曾力立提到,该论文表明,当协变量维数以某种合理的速度趋于无穷大时,我们仍可以利用经验似然方法构造 $\beta$ 的置信域,不过此时有关临界值的确定依赖于正态分布而非卡方分布。

方江林提到,当 $p=o_p(n^{1/3}) \to \infty$ 时,在一定条件下,该文得出了经验似然比统计量渐近分布为正态分布的结论。

曾力立提到,该文在基于plug-in估计对经验似然方法做了一个推广研究。

在一般的多元模型下,该文评估了数据维数对高维数据经验似然比的渐近正态性的影响,指出多元随机向量各分量之间的数据维数和相关性直接通过协方差矩阵的迹和特征值来影响经验似然。

方江林提到,该文是在Hjort基础上,进一步研究了样本维数对经验似然方法的影响,证明了当 $p=o_p(n^{1/2}) \to \infty$ 时,经验似然方法仍然适用,改进了Hjort的结果。

曾力立提到,该文在多元模型下研究了均值的渐近性质。

毛沥悦提到,该文证明了当参数的维数变化时,经验似然方法仍然有效。

研究两个问题,多元参数估计量的置信域和模型假设检验,并提出两个建议,新的估计方程和检验统计量。

方江林提到,该类惩罚的思想是在进行参数估计的同时,利用惩罚函数将较小的系数估计值压缩为零,而将系数估计值较大的保留,在估计出系数的同时选择出重要变量。这可以同时实现变量选择和系数估计两个目标。惩罚变量选择普遍采用“损失函数+惩罚函数”的变量选择方法,类似地,惩罚经验似然通常也使用“经验似然比函数+惩罚函数”方式。该文首次将惩罚经验似然方法应用于高维,不过要求在 $p < n$ 情形下。

曾力立提到,该文将经验似然应用于高维变量选择。

何帮强提到,该文首次提出的惩罚经验似然(PEL)被用于分析多变量的均值向量和线性模型的发散数量回归系数。该文证实的PEL具有优点在来自非参数似然法的效率和适应性方面。另外,PEL方法具有使用数据来确定置信区域的形状和取向,与EL有相同优点并且不估计共协方差。

方江林提到,该文将高维的惩罚经验似然方法推广到高维估计方程,仍要求$p < n$

何帮强提到,该文将PEL方法应用于一般估计方程的参数估计和变量选择,并显示PEL具有oracle特征。

方江林提到,当维数是超高维的,即 $p > n$ 时,该文研究了总体均值的惩罚经验似然推断,并给出了其统计量的渐近性质。

方江林提到,该文提出了改进的经验似然方法可以提高其统计推断的效率。

曾力立提到,该文研究了高维线性回归模型中的变量选择问题。

经验似然

许多经典的低维数据处理方法,在处理髙维数据时面临着难以解决的困难。例如,传统的数据处理方法在处理高维数据时不能满足稳健性要求;高维导致空间的样本数变少,从而使得一些统计上的渐近性难以实现;维数的增加亦会导致数据的计算量迅速上升。

在这篇论文里,作者的主要目的是检验一个可能的高维线性回归模型的系数是否等于一个给定值。创新点:

  1. 将传统经验似然方法里面的高维约束条件巧妙地变换成与维数无关的低维情形,以此构造出新的约束条件,再利用经验似然的方法解决相关问题。
  2. 在一般经验似然方法里加入了伪观测值,从而作出了一个新奇的调整。调整后的经验似然方法保留了之前方法的所有最优性准则.不仅如此,该方法下的区间覆盖率更接近于置信水平,而且还不需要Bartlett校正和Bootstrap方法里那么复杂的程序。
  3. 针对不同的维数,有区别地加入了约束条件的个数,一方面使得犯两类错误的概率令人满意,另一方面也大大地节省了计算成本。

该文指出,线性模型的统计推断中 $p$$n$ 的指数阶的情况下的研究现状:

  1. $\beta$ 有很多分量为零,首先选出非零的分量(即变量选择,如Lasso),然后对被选出来的非零分量做统计推断。
  2. $\beta$ 有很多分量不为零,简单地考虑变量选择是不够的,需要新的方法,借鉴彭亮Empirical likelihood test for high dimensional linear models 一文中的思想,通过一定手段——将样本数据分为两个部分,用每两个旧的观测值构造一个新的观测值——将约束条件与维数无关。

该文思路:利用已有的观测值去构造 $\omega_i(\beta)$,构造出来的 $\omega_i(\beta)$需满足

  1. $E\omega_i(\beta_0)=0$
  2. $E\omega_i(\beta_0)=0$ 非常接近于$L_1$范数。

由此将经验似然的方法应用于估计式及 $E\omega_i(\beta_0)=0$,从而解决 $\beta$ 有很多分量不为零的假设检验问题。曾力立将高维转换为一维进行考虑,并称其为简单经验似然。

在样本维数 $p$ 随容量 $n$ 一起趋向无穷的情形下,本文研究了多个模型的经验似然推断,分别有半参数模型,可加危险率模型,异方差部分线性单指标模型,以及两样本问题(均值,线性模型系数之差)。

具体工作:

  1. 利用经验似然方法构造了参数的估计量及其置信域。证明了在一定条件下,当样本维数和容量都趋向无穷情形时,经验似然比渐近分布为正态分布,并证明了通过经验似然方法得到的参数估计量具有一致性。
  2. 利用经验似然方法构造了参数分量的置信区间(置信域)。证明了在一定条件下,当样本维数发散时,通过经验似然方法得到的参数估计量具有一致性,并证明了关于参数分量的经验似然比渐近分布是 $\chi^2_q$ 分布。
  3. 将惩罚经验似然方法推广到高维稀疏情形下模型的变量选择和参数估计问题。证明了在一定条件下,当样本维数发散时,惩罚经验似然比统计量具有渐近 $\chi^2_q$ 分布,同时证明了惩罚经验似然方法具有Oracle性质。

发表论文:

  1. 方江林,刘万荣Lu Xuewen. 半参数模型的高维惩罚经验似然

惩罚经验似然

第三章讨论高维情况下广义线性模型的参数估计与变量选择问题,通过通过适当的辅助随机变量研究了自适应Lasso下高维广义线性模型的惩罚经验似然。主要的结论有提出的方法具有Oracle性质以及在假设检验中构造的检验统计量的渐近分布为卡方分布。

在半参数回归模型中,当协变量的维度随着样本量的增大而增大,即当协变量维度较高时,将会遇到“维数祸根”等问题。将经验似然方法与惩罚函数相结合并应用于模型当中,可以有效的解决高维数据情况下的变量选择问题,从而降低模型的复杂度,解决模型在做预测时的不稳定性的问题。

何帮强更多面板研究成果见此

高维数据的变量选择问题。在处理高维数据时,单指标模型的降维特性有效地避免了“维数灾难问题,还抓住了高维数据的稀疏特性。在论文中考虑参数维数会随着样本容量的增大而同时增大的情形,对单指标模型提出了一种稳健的变量选择方法:基于SCAD惩罚函数及经验似然的惩罚经验似然。

论文发现,在一定正则条件下,参数维数随样本量同时增大的惩罚经验似然估计仍具有Oracle性质,即如果已知真实模型是稀疏的模型,则以概率趋向于1,惩罚经验似然确定模型的非零参数估计具有稀疏性(惩罚似然估计值应该有一个限制,这个限制自动将那些较小的估计系数设为,进而去掉,并删除对应的变量,从而降低模型的复杂度)。