Tan Jay

保形推断

Tan Jay / 2025-02-25


研究记录之保形推断

主题:confermal inference、参考文献、nonconformity measure、重对数律。

confermal inference

Conformal Inference(保形推断)是一种非参数的统计方法,用于为预测模型生成具有严格概率保证的预测区间或集合。其核心目标是在不依赖数据分布假设的情况下,确保新观测值的真实结果以预定概率(如95%)落入预测范围内。以下是其关键要点:

核心思想

  1. 覆盖概率保证:无论数据分布如何,Conformal Inference生成的预测区间能以指定的置信水平(如1-α)覆盖真实值,适用于有限样本且无需渐近近似。
  2. 非参数与模型无关:不假设数据分布或模型结构,适用于任何预测模型(如线性回归、神经网络等),尤其适合复杂机器学习模型的不确定性量化。

关键步骤

  1. 划分数据:将数据集分为训练集和校准集。
  2. 训练模型:使用训练集训练模型。
  3. 计算非合群分数(Nonconformity Score):衡量预测与实际值的差异。例如:
    • 回归任务:残差绝对值 $ |y_i - \hat{y}_i| $
    • 分类任务:1减去正确类别的预测概率 $ 1 - P(y_i|x_i) $
  4. 确定分位数:基于校准集的分数计算调整后的分位数 $q = \lceil (n+1)(1-\alpha) \rceil / n $ ,其中 $ n $为校准集大小。
  5. 构建预测区间:新样本的预测区间为 $\hat{y}_{\text{new}} \pm q $ (回归)或包含概率高于阈值的类别集合(分类)。

优势

局限性

应用场景

示例

回归任务:校准集残差为[0.5, 1.2, 2.0],置信水平95%时,调整后分位数取第3大值(2.0)。新预测值为10,则区间为[8.0, 12.0],保证真实值有95%概率落入。

分类任务:某样本正确类别的预测概率为0.6,阈值为0.3(对应1-α=95%),则预测集合包含所有概率≥0.4的类别,确保真实类别被包含的概率≥95%。

总之,Conformal Inference通过数据驱动的方法,为复杂模型提供可靠的不确定性估计,增强其在现实应用中的可信度。

以下是关于 Conformal Inference(保形推断) 的经典论文和最新研究推荐,涵盖理论、应用及扩展方向。这些论文适合深入理解其数学基础、算法实现及实际应用场景。

参考文献

1. 奠基性论文

(2) Conformal Prediction for Reliable Machine Learning

2. 分类与回归任务

(3) Conformal Prediction Under Covariate Shift

(4) Distribution-Free Predictive Inference for Regression

(5) Classification with Valid and Adaptive Coverage

3. 时间序列与非交换数据

(6) Conformal Prediction for Time Series

(7) Conformal PID Control for Time Series Prediction

4. 深度学习与高维数据

(8) Conformal Prediction for Deep Classifiers via Clustering

(9) Uncertainty Quantification with Conformal Prediction for Deep Learning

5. 最新扩展方向

(10) Conformal Risk Control

(11) Conformal Off-Policy Prediction for Contextual Bandits

6. 实用教程与书籍

选择建议

保形推断的核心优势在于其非参数性和严格的覆盖保证,但需注意其数据交换性假设是否满足(如时间序列需调整方法)。

nonconformity measure

Nonconformity measure”(非符合性度量)是统计学习和机器学习中的一个术语,尤其在 Conformal Prediction(保形预测)框架中扮演核心角色。它用于量化一个数据点与已有数据分布或模型预测的“不一致程度”,从而评估新样本的异常性或不确定性。

核心概念

  1. 基本定义

    • Nonconformity measure 是一个函数,用于计算某个数据点(或样本)与已有数据/模型的“不匹配程度”。
    • 值越大,表示该数据点越不符合当前模型或数据分布,可能属于异常或需要特别关注。
  2. 在 Conformal Prediction 中的作用

    • Conformal Prediction 是一种生成预测集合并提供统计置信度的方法,确保预测结果在指定置信水平下覆盖真实值。
    • 通过 nonconformity measure,算法会为每个候选预测结果计算一个“不一致分数”,从而确定哪些预测应被包含在置信区间或预测集合中。

应用示例

技术意义

与其他概念的区别

简而言之,nonconformity measure 是连接数据、模型与统计置信度的桥梁,尤其在需要可靠不确定性估计的场景(如医疗诊断、金融风险评估)中至关重要。

这段话讨论了保形预测(Conformal Prediction)中 非对称非符合性度量(Asymmetric Nonconformity Measure) 的设计及其意义。以下是逐层解析:

度量方式

  1. 对称与非对称的对比

    • 对称非符合性度量(如公式 2.30 或 2.32):通常使用绝对值(如预测误差的绝对值 $ |y_i - \hat{y}_i| $),表示“偏离程度的量级”,不区分方向(如高估或低估)。
    • 非对称非符合性度量(如公式 2.33 或 2.34):允许区分方向(如 $ y_i - \hat{y}_i $$ \hat{y}_i - y_i $),可衡量样本对某一特定属性的符合程度(例如“标签是否足够大”或“标签是否足够小”)。
  2. 非对称度量的意义

    • 公式 2.33$ \alpha_i := y_i - \hat{y}_i $
      • 含义:实际值 $ y_i $比预测值 $ \hat{y}_i $大多少。
      • 用途:衡量样本 $ z_i $对“标签较大”这一属性的符合程度。例如,若 `$\alpha_i$ 很大,说明真实标签远超预测,可能属于异常(或需特别关注的高值样本)。
    • 公式 2.34$ \alpha_i := \hat{y}_i - y_i $
      • 含义:预测值 $ \hat{y}_i $比实际值 $ y_i $大多少。
      • 用途:衡量样本 $ z_i $对“标签较小”这一属性的符合程度。例如,若 $\alpha_i $很大,说明预测显著高估真实值,可能属于低估异常。

技术意义

  1. 灵活建模单侧关注问题

    • 在现实场景中,我们可能只关心某一方向的偏差(例如:
      • 金融风控:更关注损失超过预期的样本(即 $ y_i - \hat{y}_i $为正的情况)。
      • 医疗诊断:更关注检测结果远低于预期的样本(即 $ \hat{y}_i - y_i $为正的情况)。
    • 非对称度量允许针对特定方向定义“非符合性”,从而生成单侧置信区间或异常检测规则。
  2. 与通用框架的关系

    • 非对称度量(如 2.33 和 2.34)是通用非符合性度量(公式 2.31)的特例。
    • 通用框架(公式 2.31):允许自定义非符合性函数,只需满足“可比较性”(即不同样本的非符合性分数可排序)。
    • 非对称实现:通过调整符号(如 $ y_i - \hat{y}_i $$ \hat{y}_i - y_i $),将方向信息编码到分数中。

示例说明

场景:房价预测

应用:生成单侧置信区间

与 p 值的关系

总结

重对数律

重对数律(Law of the Iterated Logarithm, LIL) 是概率论中描述独立同分布随机变量部分和波动性的精确渐近结果。它刻画了随机波动幅度的上下极限,揭示了大数定律和中心极限定理之间的更深层规律。

核心定义

$X_1, X_2, \dots $是独立同分布(i.i.d.)的随机变量,满足:

定义部分和 $S_n = X_1 + X_2 + \dots + X_n $,则重对数律表明:

$$ \limsup_{n \to \infty} \frac{S_n - n\mu}{\sigma \sqrt{2n \log \log n}} = 1 \quad \text{a.s.} $$

$$ \liminf_{n \to \infty} \frac{S_n - n\mu}{\sigma \sqrt{2n \log \log n}} = -1 \quad \text{a.s.} $$

即部分和的偏差被限制在 $\pm \sigma \sqrt{2n \log \log n} $内,且此界限是紧的(几乎必然达到)。

直观解释

  1. 波动范围的精确刻画

    • 大数定律$S_n / n \to \mu $(均值收敛)。
    • 中心极限定理:偏差按 $\sqrt{n} $增长,服从正态分布。
    • 重对数律:进一步给出偏差的极值波动幅度,由 $ \sqrt{n \log \log n} $主导,精确到常数因子 $\sigma \sqrt{2} $
  2. “几乎必然”收敛 波动幅度在无限次观测中会被无限次接近上述上下界,但不会持续超出。

关键意义

  1. 理论深度

    • 填补了大数定律(收敛性)与中心极限定理(分布形态)之间的空白,描述了极值波动的渐近行为。
  2. 应用场景

    • 随机过程分析:如布朗运动的路径性质。
    • 统计推断:评估估计量的收敛速度。
    • 金融数学:资产价格波动幅度的极端情况建模。

示例说明

考虑一个简单对称随机游动(如抛硬币):

根据重对数律,部分和 $S_n $的极值波动满足: `$$ \limsup_{n \to \infty} \frac{S_n}{\sqrt{2n \log \log n}} = 1 \quad \text{a.s.} $$

这意味着,当 $ n $极大时,随机游动的路径几乎必然会在 $\pm \sqrt{2n \log \log n} $之间无限次触碰边界,但不会持续超出。

与其他定理的关系

定理 描述 缩放因子
大数定律 (LLN) 均值收敛 $ n $
中心极限定理 (CLT) 偏差分布趋近正态 $\sqrt{n} $
重对数律 (LIL) 极值波动的上下限 $ \sqrt{n \log \log n} $

注意事项

总结

重对数律揭示了随机变量部分和的极值波动被严格约束在 $\pm \sigma \sqrt{2n \log \log n} $ 内,是概率论中对随机性本质的深刻刻画,为理解复杂随机现象提供了理论基石。