BH控制定理
Tan Jay / 2025-09-28
多重假设检验BH控制定理
1. 多重假设检验的设置
在 $p$ 维多重假设检验中,结果可分为四类:
接受 $H_0 $ |
拒绝 $H_0$ |
总计 | |
|---|---|---|---|
$ H_0$ 为真 |
$V$ (正确接受) |
$U$ (错误发现,第I类错误) |
$p_0$ |
$H_0$ 为假 |
$S$ (错误接受,第II类错误) |
$T$ (正确拒绝) |
$p_1$ |
| 总计 | $p - R$ |
$R$ |
$p = p_0 + p_1$ |
其中:
$U$表示第 I 类错误发现的总数$R$表示拒绝原假设的总数$FDP = \frac{U}{\max\{R, 1\}}$$FDR = E[FDP] = E\left[ \frac{U}{\max\{R, 1\}} \right]$
2. 定理内容
BH方法的FDR控制定理
对于给定的 $FDR$ 控制水平 $q \in (0,1)$,如果多重检验的 $p$ 值 $\{ p_j \}_{j=1}^p$ 相互独立,则BH方法满足:
$$ FDR = \frac{p_0}{p} q \leq q $$
3. 定理证明
符号说明:
-
$S_0 = \{ j : H_{0j} \text{为真} \}$:正确原假设指标集 -
$ S_1 = S_0^c $:错误原假设指标集 -
$ p_0 = |S_0| = \sum_i I_{i \in S_0} $:正确原假设的总数
分情况讨论。
第一种情形($p_0 = 0$)
当 $p_0 = 0$ 时,正确原假设总数为 $0$,则 $U = 0$,$FDR = E[\frac{U}{\max\{R, 1\}}] = 0$,定理自然成立。
第二种情形($p_0 \geq 1$)
步骤1:定义和符号
令 $U_i = I(\text{第 } i \text{ 个原假设被拒绝}) $,则 $ U = \sum_{i \in S_0} U_i $,$R = \sum_{i \in S_0 \cup S_1} U_i = \sum_{i = 1}^p U_i$。按照 BH 流程,$ U_i = I(p_i \ge \frac{k}{p} q)$。相应地,$FDP$ 和 $FDR$ 可分别表示为:
$$ FDP = \frac{U}{\max\{R, 1\}} = \sum_{i \in S_0} \frac{U_i}{\max\{R, 1\}} $$
$$ FDR = E[FDP] = \sum_{i \in S_0} E\left[ \frac{U_i}{\max\{R, 1\}} \right] $$
步骤2:处理$ \frac{U_i}{\max\{R, 1\}} $
在原假设成立时,$p$ 值服从均匀分布 $U(0,1)$,因此对于任意 $i \in S_0 $,项 $\frac{U_i}{\max\{R, 1\}}$ 服从同一分布。注意到 $R$为离散随机变量, 可进行离散化分解,得到点态等式:
$$ \frac{U_i}{\max\{R, 1\}} = \sum_{k=1}^{p} \frac{U_i }{k}\cdot I\{R=k\} \tag{1} $$
该点态等式不仅仅是期望相等,更是随机变量之间的等式,它本质上是将随机变量$\frac{U_i}{\max\{R, 1\}}$分解为对 $R$ 所有可能值的求和,这是一种常见的离散化技巧。
定义 $R(p_i \to 0)$:当第 $i$ 个 $p$ 值变为 $0$ 时,即强制拒绝第 $i$ 个假设,BH方法拒绝的假设总数。(BH方法是一个确定的算法:给定一组 $p$ 值,它会产生确定的拒绝集合和拒绝数 $R$)。(1)式分两种情况考虑:
- 如果
$H_{0i}$被接受($U_i = 0$):$U_i I\{R=k\} = U_i I\{R(p_i \to 0)=k\}$; - 如果
$H_{0i}$被拒绝($U_i = 1$):$R = R(p_i \to 0)$,$U_iI\{ R=k\} = U_i I\{R(p_i \to 0)=k\}$。
因此,(1)式可写为
$$ \frac{U_i}{\max\{R, 1\}} = \sum_{k=1}^{p} \frac{U_i }{k} \cdot I\{R(p_i \to 0)=k\}, \quad i \in S_0 \tag{2} $$
步骤3:条件期望 $E\left[ \frac{U_i}{\max\{R, 1\}} \middle| \mathcal{F}_i \right] $
定义 $ \mathcal{F}_i $ 为 $\{p_1, \cdots, p_{i-1}, p_{i+1}, \cdots, p_p\}$ 生成的σ-域。条件于 $\mathcal{F}_i$ 意味着我们固定了所有其他 $p$ 值的具体数值,只有第 $i$ 个 $p$ 值 $p_i$ 仍然是随机的(在 $H_0$ 成立下服从均匀分布)。
$$ \begin{align*} E\left[ \frac{U_i}{\max\{R, 1\}} \middle| \mathcal{F}_i \right] \tag{3} &= E\left[ \sum_{k=1}^{p} \frac{U_i I\{R(p_i \to 0)=k\}}{k} \middle| \mathcal{F}_i \right]\\ \tag{4} &= \sum_{k=1}^{p} \frac{I\{R(p_i \to 0)=k\}}{k} E\left[ U_i \middle| \mathcal{F}_i \right] \end{align*} $$
(4)成立是由于在 $ \mathcal{F}_i $ 条件下,$R(p_i \to 0)$ 是确定的,$I\{R(p_i \to 0)=k\}$ 为常数,可提到期望符号外面。由于 $p$ 值服从均匀分布且 $p_i$ 与 $\mathcal{F}_i$ 独立:
$$ E\left[ U_i \middle| \mathcal{F}_i \right] = E\left[ I\{p_i \leq \frac{kq}{p}\} \middle| \mathcal{F}_i \right] = P \left(p_i \leq \frac{ R(p_i \to 0) q}{p} \middle| \mathcal{F}_i \right) = \frac{ R(p_i \to 0) q}{p} \tag{5} $$
将(5)代入(4),得:
$$ E\left[ \frac{U_i}{\max\{R, 1\}} \middle| \mathcal{F}_i \right] = \sum_{k=1}^{p} \frac{I\{R(p_i \to 0)=k\}}{k} \cdot \frac{ R(p_i \to 0) q}{p} = \frac{q}{p} \sum_{k=1}^{p} I\{R(p_i \to 0)=k\} = \frac{q}{p} $$
步骤4:无条件期望$E\left[ \frac{U_i}{\max\{R, 1\}} \right] $
由条件期望的迭代律:
$$ E\left[ \frac{U_i}{\max\{R, 1\}} \right] = E\left[ E\left[ \frac{U_i}{\max\{R, 1\}} \middle|\mathcal{F}_i \right] \right] = \frac{q}{p} $$
因此:
$$ FDR = \sum_{i \in S_0} E\left[ \frac{U_i}{\max\{R, 1\}} \right] = p_0 \cdot \frac{q}{p} = \frac{p_0}{p} q \leq q $$
证毕。
补充解释
1.为什么在原假设成立时,$p$ 值服从均匀分布 $U(0,1)$?
在假设检验中,$p$ 值定义为:在原假设 $H_0$ 成立的条件下,观察到检验统计量至少与实际观测值一样极端的概率。
数学上,如果 $T$ 是检验统计量,$t_{obs}$ 是实际观测值,则:
$$ p = P(T \geq t_{obs} | H_0) \quad \text{(对于单侧检验)} $$
关键点:
- 当
$ H_0 $成立且$T$的分布是连续时,$T$的累积分布函数(CDF)记为$F(t)$ - 根据概率积分变换定理,随机变量
$F(T)$服从均匀分布$U(0,1)$ - 由于
$p = 1 - F(t_{obs})$(对于右侧检验),而$F(t_{obs})$是均匀分布的,因此$p$也服从均匀分布$U(0,1)$
2. 为什么对于任意 $ i \in S_0 $,项 $U_i/\max\{R, 1\}$ 服从同一分布?
同分布性的原因:
对于所有 $ i \in S_0 $(即所有真实原假设),项 $\frac{U_i}{\max\{R, 1\}}$ 服从同一分布,主要原因如下:
-
$p$值的独立同分布性:- 所有正确原假设的
$p$值$ \{p_i\}_{i \in S_0} $是相互独立的 - 每个
$p_i$都服从相同的均匀分布$U(0,1)$ - 因此,这些
$p$值是独立同分布的(i.i.d.)
- 所有正确原假设的
-
BH方法的对称性:
- BH方法基于排序的p 值做出决策:
$p_{(1)} \leq p_{(2)} \leq \cdots \leq p_{(p)}$ - 由于
$p$值是交换的(exchangeable),BH方法对每个真实原假设的处理是对称的 - 任何两个真实原假设
$i$和$j$在统计上是不可区分的
- BH方法基于排序的p 值做出决策:
-
联合分布的对称性:
- 随机向量
$(U_i, R)$的联合分布对于所有$ i \in S_0 $是相同的 - 因此,函数
$\frac{U_i}{\max\{R, 1\}}$的分布也不依赖于具体的$i$
- 随机向量
3. 项 $U_i/\max\{R, 1\}$ 服从什么分布
项 $\frac{U_i}{\max\{R, 1\}}$ 取值范围为离散集合:$\{0\} \cup \left\{\frac{1}{k} : k = 1, 2, \ldots, p\right\}$,服从离散混合分布,概率质量函数为:
$$ P\left(\frac{U_i}{\max\{R, 1\}} = x\right) = \begin{cases} P(U_i = 0) & \text{若 } x = 0 \\ P(U_i = 1, R = k) & \text{若 } x = \frac{1}{k}, k = 1, \ldots, p \end{cases} $$
$\frac{U_i}{\max\{R, 1\}}$ |
$0$ |
$1$ |
$\cdots$ |
$\frac{1}{p}$ |
|---|---|---|---|---|
| 取值概率 | $P(U_i = 0)$ |
$P(U_i = 1 \cap R = 1)$ |
$\cdots$ |
$P(U_i = 1 \cap R = p)$ |
其期望值:
$$ E\left[\frac{U_i}{\max\{R, 1\}}\right] = 0 \cdot P(U_i = 0) + \sum_{k=1}^{p} \frac{1}{k} \cdot P(U_i = 1, R = k) = \sum_{k=1}^{p} \frac{1}{k} E[U_i I\{R = k\}] $$
但这样求不出,而是利用条件期望和点态公式$\frac{U_i}{\max\{R, 1\}} = \sum_{k=1}^{p} \frac{U_i }{k} \cdot I\{R=k\}$:
$$ E\left[\frac{U_i}{\max\{R, 1\}}\right] = E \left\{ E\left[\frac{U_i}{\max\{R, 1\}} \middle| \mathcal{F}_i\right] \right\}= E \left\{ E \left[ \sum_{k=1}^{p} \frac{U_i}{k} \cdot I \{R = k\} \middle| \mathcal{F}_i \right] \right\} $$
4. 为什么在 $\mathcal{F}_i$ 条件下 $R(p_i \to 0)$ 是确定的?
在给定 $\mathcal{F}_i$ 的条件下:
- 所有其他
$p$值被固定:$\mathcal{F}_i$包含了除$p_i$外所有$p$值的具体数值 $p_i$被明确设为$0$:在计算$R(p_i \to 0)$时,我们明确将$p_i$设置为$0$- BH算法的确定性:由于所有输入(
$p$值)都是确定的(其他$p$值固定,$p_i$设为$0$),BH算法的输出$R(p_i \to 0)$也是确定的
因此,在给定 $\mathcal{F}_i$ 的条件下,$R(p_i \to 0)$ 是一个确定的数值,而不是随机变量。
5. 为什么 $I\{R(p_i \to 0)=k\}$ 是常数?
由于在 $\mathcal{F}_i$ 条件下 $R(p_i \to 0)$ 是确定的:
$R(p_i \to 0)$有某个具体的数值,比如$k_0$- 对于每个
$k$,事件$\{R(p_i \to 0) = k\}$要么成立(如果$k = k_0$),要么不成立(如果$k \neq k_0$) - 因此,指示函数
$I\{R(p_i \to 0) = k\}$在给定$\mathcal{F}_i$下是常数:- 如果
$k = k_0$,则$I\{R(p_i \to 0) = k\} = 1$(常数) - 如果
$k \neq k_0$,则$I\{R(p_i \to 0) = k\} = 0$(常数)
- 如果
