Tan Jay

保形推断与公平性

Tan Jay / 2025-03-01


保形推断的无条件有效性依赖于数据的可交换性假设,但在实际中,数据可能存在异质性,不同子群体的分布不同。当模型在训练时没有考虑到这些子群体的特性时,预测集的覆盖可能在局部失效。例如,如果某个子群体的数据分布与整体差异大,非符合性评分可能在该子群中偏差较大,导致覆盖率下降。

“loss of coverage”在条件于 $\hat{C} $$X \in G$ 时可能发生。这意味着即使整体覆盖率达标,当聚焦于特定子群体或特定预测集时,覆盖率可能不足。例如,模型可能在男性样本上覆盖率高,但在女性样本上覆盖率低,导致性别偏见。针对保形推断的局限性,可能的解决方法有,如条件保形推断或分层方法,来确保各子群体的局部覆盖率。另外,如何在实际应用中检测和缓解这种覆盖不均的问题,尤其是在敏感领域如医疗、金融等,公平性和可靠性至关重要。


1. 保形推断的基本保证

保形推断通过训练数据 $ \{X_i, Y_i\}_{i=1}^n $ 和新样本 $X_{n+1}$ 生成一个集合值函数 $\hat{C}(\cdot)$,满足: $$ P(Y_{n+1} \in \hat{C}(X_{n+1})) \geq 1 - \alpha $$ 这一保证称为边际有效性(marginal validity),其含义是:


2. 边际有效性的局限性

(1) 条件覆盖可能失效

尽管整体覆盖概率满足 $1 - \alpha$,但存在某些子集 $G \subseteq \mathcal{X}$(如特定人群、特征区间),使得在条件概率下覆盖可能不足: $$ P\left(Y \in \hat{C}(X) \mid \hat{C}, X \in G\right) \neq 1 - \alpha $$ 具体表现

(2) 敏感应用中的公平性问题


3. 关键术语解析


4. 为何说“边际保证不排除条件覆盖的失效”?


5. 敏感应用中的实际影响


6. 解决方向

(1) 条件保形推断(Conditional Conformal Prediction)

(2) 加权保形推断(Weighted Conformal Prediction)

(3) 公平性约束


7. 总结

保形推断的进一步发展需在保持全局有效性的同时,增强对局部数据分布的适应性,以应对复杂现实场景中的公平性和可靠性需求。