保形推断与公平性
Tan Jay / 2025-03-01
保形推断的无条件有效性依赖于数据的可交换性假设,但在实际中,数据可能存在异质性,不同子群体的分布不同。当模型在训练时没有考虑到这些子群体的特性时,预测集的覆盖可能在局部失效。例如,如果某个子群体的数据分布与整体差异大,非符合性评分可能在该子群中偏差较大,导致覆盖率下降。
“loss of coverage”在条件于 $\hat{C} $
和 $X \in G$
时可能发生。这意味着即使整体覆盖率达标,当聚焦于特定子群体或特定预测集时,覆盖率可能不足。例如,模型可能在男性样本上覆盖率高,但在女性样本上覆盖率低,导致性别偏见。针对保形推断的局限性,可能的解决方法有,如条件保形推断或分层方法,来确保各子群体的局部覆盖率。另外,如何在实际应用中检测和缓解这种覆盖不均的问题,尤其是在敏感领域如医疗、金融等,公平性和可靠性至关重要。
1. 保形推断的基本保证
保形推断通过训练数据 $ \{X_i, Y_i\}_{i=1}^n $
和新样本 $X_{n+1}$
生成一个集合值函数 $\hat{C}(\cdot)$
,满足:
$$
P(Y_{n+1} \in \hat{C}(X_{n+1})) \geq 1 - \alpha
$$
这一保证称为边际有效性(marginal validity),其含义是:
- 覆盖概率的全局性:在训练数据和测试点的随机性下,预测集合覆盖真实标签的概率平均至少为
$1 - \alpha$
。 - 不涉及具体条件:这一保证不考虑特定子群体、特征区间或预测集合的具体形态。
2. 边际有效性的局限性
(1) 条件覆盖可能失效
尽管整体覆盖概率满足 $1 - \alpha$
,但存在某些子集 $G \subseteq \mathcal{X}$
(如特定人群、特征区间),使得在条件概率下覆盖可能不足:
$$
P\left(Y \in \hat{C}(X) \mid \hat{C}, X \in G\right) \neq 1 - \alpha
$$
具体表现:
- 某些子群体覆盖过高:例如,对“容易分类”的样本(如清晰的数字“0”),预测集合可能过于保守,覆盖概率接近 100%。
- 某些子群体覆盖过低:例如,对“困难样本”(如模糊的“5”),覆盖概率可能远低于
$1 - \alpha $
。
(2) 敏感应用中的公平性问题
- 受保护子群体(Protected Subgroups):
在医疗诊断、贷款审批等场景中,若预测集合对某些敏感群体(如特定种族、性别)的覆盖不足,会导致系统性偏见。- 示例:
- 模型对男性患者的诊断覆盖率为 90%(高于 95% 置信水平),但对女性患者仅为 80%(低于置信水平)。
- 表面上的“全局有效性”掩盖了子群体间的不公平性。
- 示例:
3. 关键术语解析
-
边际保证(Marginal Guarantee):
覆盖概率的全局平均值,不关注数据内部的结构或子群体差异。- 数学表达:
$ \text{Marginal Coverage} = \mathbb{E}_{(X,Y)} \left[ \mathbf{1}_{\{Y \in \hat{C}(X)\}} \right] \geq 1 - \alpha $
- 数学表达:
-
条件覆盖(Conditional Coverage):
在特定条件(如$X \in G$
或预测集合$\hat{C}$
的形态)下的覆盖概率。- 数学表达:
$\text{Conditional Coverage} = P\left(Y \in \hat{C}(X) \mid X \in G\right)$
- 数学表达:
4. 为何说“边际保证不排除条件覆盖的失效”?
-
统计视角:
边际有效性仅保证覆盖率的期望值,但无法约束条件分布的覆盖。即使整体覆盖率为 95%,仍可能存在子集$G$
,其条件覆盖率显著偏离 95%。- 示例:
假设数据包含两个子群体$G_1$
和$G_2$
,占比各 50%。$G_1$
的条件覆盖率为 99%(过度覆盖),$G_2$
的条件覆盖率为 91%(不足覆盖)。- 整体覆盖率:
$0.5 \times 0.99 + 0.5 \times 0.91 = 0.95$
,满足边际保证,但子群体覆盖不均。
- 示例:
-
算法视角:
保形推断基于全局分位数(如非符合性分数的$1 - \alpha$
分位数)构建预测集合,未考虑子群体间的分布差异。- 问题根源:
不同子群体的非符合性分数分布可能差异显著(如困难样本的分数普遍更高),导致分位数阈值在局部失效。
- 问题根源:
5. 敏感应用中的实际影响
- 医疗诊断:
若模型对某类疾病的亚型(如罕见病)覆盖不足,可能导致漏诊风险增加。 - 金融风控:
对低收入群体的贷款审批预测集合过窄,可能加剧系统性排斥。 - 法律判决:
对特定族群的保释预测覆盖不均,可能引发公平性质疑。
6. 解决方向
(1) 条件保形推断(Conditional Conformal Prediction)
- 核心思想:在子群体或特征区间内独立应用保形推断。
- 实现方式:
- 按特征分层:对每个子群体
$G$
单独计算非符合性分数和分位数阈值。 - 动态分位数调整:根据局部数据分布自适应调整阈值。
- 按特征分层:对每个子群体
- 优点:确保每个子群体的覆盖概率接近
$1 - \alpha$
。 - 挑战:小样本子群体的分位数估计可能不稳定。
(2) 加权保形推断(Weighted Conformal Prediction)
- 核心思想:在全局分位数计算中,对不同子群体赋予权重。
- 数学形式:
$ \hat{Q}_{1-\alpha} = \inf \left\{ q : \sum_{i=1}^{n+1} w_i \cdot \mathbf{1}_{\{\alpha_i \leq q\}} \geq (1 - \alpha) \sum_{i=1}^{n+1} w_i \right\} $
,其中$w_i$
反映样本$i$
所属子群体的重要性。 - 优点:灵活平衡不同子群体的覆盖需求。
- 挑战:权重设计需结合领域知识或公平性约束。
(3) 公平性约束
- 统计公平性指标:
要求所有子群体的条件覆盖率满足$P(Y \in \hat{C}(X) \mid X \in G) \geq 1 - \alpha$
。 - 优化框架:
在保形推断中引入公平性约束,通过优化算法联合优化覆盖概率和公平性。
7. 总结
- 边际有效性是保形推断的基础,但无法保证条件覆盖的均匀性。
- 现实挑战:在敏感应用中,条件覆盖的失效可能导致系统性偏见或风险。
- 解决路径:通过条件保形推断、加权方法或公平性约束,提升局部覆盖的可靠性。
保形推断的进一步发展需在保持全局有效性的同时,增强对局部数据分布的适应性,以应对复杂现实场景中的公平性和可靠性需求。