分布偏移与保形推断
Tan Jay / 2025-03-03
Distribution Shift 与 Conformal Inference 的关系
在机器学习中,Distribution Shift(分布偏移) 和 Conformal Inference(保形推断) 的关系可以从以下角度分析:
1. 核心挑战:可交换性假设的违背
- Conformal Inference 的基础假设:
保形推断依赖数据的可交换性(exchangeability),即数据的顺序不影响联合分布。这一假设在独立同分布(i.i.d.)或有限总体不放回抽样时成立。 - Distribution Shift 的影响:
当训练数据与测试数据分布不一致(如协变量偏移、标签偏移等),可交换性假设被打破,传统保形推断的覆盖概率保证(如 95% 置信水平)可能失效。
2. 覆盖概率的退化
- 边缘覆盖(Marginal Coverage):
传统保形推断保证整体数据集的覆盖概率,但无法约束特定子群体或条件下的覆盖。- 示例:在医疗数据中,模型对多数群体的覆盖概率为 95%,但对少数群体可能降至 80%。
- 条件覆盖(Conditional Coverage):
Distribution Shift 要求保形推断在子群体或局部条件下仍满足覆盖保证,这对传统方法提出挑战。
3. 应对 Distribution Shift 的保形方法
为在分布偏移下保持有效性,研究者提出以下改进方法:
(1) 加权保形推断(Weighted Conformal Prediction)
- 核心思想:
根据测试分布与训练分布的差异,为校准集样本分配权重,调整分位数阈值。 - 数学形式:
$ \hat{t} = \inf{ \left\{ t : \sum_{i=1}^{n} w_i \cdot \mathbf{1}_{\{s_i \leq t\}} \geq (1 - \alpha) \sum_{i=1}^{n} w_i \right\} } $
,$w_i$
反映样本$i$
在测试分布中的重要性(如密度比$P_{\text{test}}(x)/P_{\text{train}}(x)$
)。 - 适用场景:协变量偏移(Covariate Shift),即
$P_{\text{train}}(y|x) = P_{\text{test}}(y|x)$
但$P_{\text{train}}(x) \neq P_{\text{test}}(x)$
。
(2) 条件保形推断(Conditional Conformal Prediction)
- 核心思想:
在子群体或特征分层内独立应用保形推断,确保每个子群体的覆盖概率达标。 - 实现方式:
- 按敏感属性(如性别、年龄)划分数据,对每个子群体单独计算分位数阈值。
- 使用条件非符合性评分(如分位数回归)。
- 优点:解决子群体间覆盖不均问题,提升公平性。
(3) 自适应保形推断(Adaptive Conformal Inference)
- 核心思想:
在在线学习或数据流中动态调整分位数阈值,适应分布变化。 - 方法:
- 滑动窗口校准:仅用最近数据计算分位数。
- 动量更新:平滑历史分位数与新观测的权重。
- 适用场景:时间序列数据、概念漂移(Concept Drift)。
(4) 分布鲁棒保形推断(Distributionally Robust Conformal Prediction)
- 核心思想:
结合分布鲁棒优化(DRO),在最坏分布扰动下保证覆盖概率。 - 数学形式:
$$ \hat{t} = \inf{\{ t : \sup_{Q \in \mathcal{U}(P)} P_Q(s \leq t) \geq 1 - \alpha\}} $$$\mathcal{U}(P)$
是围绕训练分布$P$
的邻域(如 Wasserstein 球)。
- 优点:防范未知但有限的分布偏移。
4. 不同类型 Distribution Shift 的影响
偏移类型 | 对保形推断的挑战 | 解决方法 |
---|---|---|
协变量偏移 | 输入分布 $P(x)$ 变化,但 $P(y|x)$ 不变 |
加权保形推断、条件保形推断 |
标签偏移 | 标签分布 $P(y)$ 变化,但 $P(x|y)$ 不变 |
反向加权校准(如标签密度比调整) |
概念偏移 | 条件分布 $P(y|x)$ 变化 |
自适应保形推断、在线重校准 |
联合分布偏移 | $P(x,y)$ 整体变化 |
分布鲁棒保形推断、领域自适应 |
5. 实际应用与挑战
- 医疗诊断:患者群体分布变化时,需确保对罕见病的覆盖概率不下降。
- 金融风控:经济周期变化导致用户特征偏移,需动态调整预测区间。
- 自动驾驶:不同天气条件下,传感器数据分布变化需鲁棒的置信区间。
主要挑战:
- 小样本子群体:条件保形推断在样本不足时阈值估计不稳定。
- 复杂偏移检测:实时检测分布偏移类型并选择合适方法。
- 计算效率:加权或分布鲁棒方法可能增加计算开销。
6. 总结
- Distribution Shift 威胁传统保形推断:破坏可交换性假设,导致覆盖概率失效。
- 改进方法:加权、条件、自适应、分布鲁棒保形推断等,针对不同偏移类型提供解决方案。
- 未来方向:
- 结合因果推断解决混杂偏移。
- 开发高效的小样本条件校准方法。
- 增强对复杂分布变化的自动适应能力。
保形推断在分布偏移下的研究,正推动其从理论工具向实际高可靠性系统的演进,尤其在医疗、金融等高风险领域具有重要价值。