Tan Jay

周二汇报

Tan Jay / 2024-11-25


汇报人:唐洁 内容:两个方面。第一个,初代Storey方法;第二个,变种Storey方法。围绕提出动机,如何解释,实际效果展开讲述。

主题:Storey方法

研究问题:多重假设检验

单个假设检验的思想方法是在控制第一类错误的基础上控制第二类错误,保证两类错误的概率分别能在$\alpha$$\beta$内。

与单个假设检验相对的概念是多重假设检验。

与单个假设检验一样,多重假设检验可以看作一个检验族,它的重要任务就是控制第一类错误概率的前提下提高检验的功效,尽可能多的发现显著性检验。

多重假设检验的首要问题是怎样定义“错误”,即,错误测度。

研究背景:

随着科学技术的不断发展,当前生物学、医学、金融等发展背景下,高维数据不断涌现,由此导致的传统统计分析方法不再适用。多重假设检验作为分析高维数据的一个重要基础,得到了越来越多的关注。

研究现状:

符号引入:

落入接受域 落入拒绝域 总数
$H_0$ U V:犯第一类错误的总数 $m_0$
$H_1$ T:犯第二类错误的总数 S $m_1$
总数 W R:拒绝原假设的总个数 $m$

其中,$m$已知。$m_0$是基于 $p$ 值在不同假设下分布的差异性。U、V、T、S在检验中都是不可观察的随机变量,W、R是可观察的随机变量。

对于多个假设检验的最首要的问题是如何控制错误拒绝原假设的个数V或者犯错比率V/R。

因此,多重假设检验问题就是制定一种合理的检验法则来控制犯第一类错误的概率,并且使得检验功效达到最大。

检验法则根据错误测度不同而不同。

历史方法:

FWER

考虑到$m \to \infty$时,犯错不可控,根据实际情况,将检验关心的问题更改为:

尽量识别出差异,能够容忍和允许在R次拒绝中发生少量的错误识别。

换而言之,允许犯错更多一点,错误测度可以再宽松一点。

因此,比起控制 $ \Pr(V \geq 1)$,现在是控制$\frac{V}{R} \leq \alpha$

$\frac{V}{R} \to 0$,所有拒绝中全部判对,无失误,

$\frac{V}{R} \to 1$,所有拒绝中全部判错,全失误。

$R = 0$ 给定义造成困难,解决方案:(A)$E(\frac{V}{R} | R > 0) \Pr(R > 0)$ (B)$E(\frac{V}{R} | R > 0)$ (C)$\frac{E(V)}{E(R)}$

FDR

对截断点的选取不同,方法名称不同,如:Benjamini and Liu (1999),Benjamin and Yekutieli (2001),

随着对FDR控制方法的深入研究,发现在假设检验中引入正确原假设比例的估计$\pi_0 = \cfrac{m_0}{m}$能提高检验的功效,找到更多的显著变量,同时也能很好地控制第一类错误在一个合理的范围内。于是,很多研究提出对于正确原假设比例的估计方法,如:最低斜率估计法$\lambda$ 估计法减密度估计法

Storey方法:

pFDR

借鉴Storey思想的论文:

1. 使用Storey提出的$\hat{m}_0(\lambda)$作为检验过程的一环

2. 提供Storey方法中$\lambda$的估计方法

研究空间:

总结:

  1. Storey方法:
    • 动机:更合理的PDF度量
    • 贝叶斯解释:给定假设性下,是后验贝叶斯概率
    • 如何选择拒绝域:人为给定?
  2. DOS-Storey方法:
    • 动机:给出更好的 $\hat{\pi}_0(\lambda)$ 估计
    • 区别Storey地方:$\lambda$ 取最大变点位置的 $p$
    • 实际效果:应用场景广,不论稀疏或不稀疏;保持低偏差同时减少方差。