保形推断
Tan Jay / 2025-02-25
研究记录之保形推断
主题:confermal inference、参考文献、nonconformity measure、重对数律。
confermal inference
Conformal Inference(保形推断)是一种非参数的统计方法,用于为预测模型生成具有严格概率保证的预测区间或集合。其核心目标是在不依赖数据分布假设的情况下,确保新观测值的真实结果以预定概率(如95%)落入预测范围内。以下是其关键要点:
核心思想
- 覆盖概率保证:无论数据分布如何,Conformal Inference生成的预测区间能以指定的置信水平(如1-α)覆盖真实值,适用于有限样本且无需渐近近似。
- 非参数与模型无关:不假设数据分布或模型结构,适用于任何预测模型(如线性回归、神经网络等),尤其适合复杂机器学习模型的不确定性量化。
关键步骤
- 划分数据:将数据集分为训练集和校准集。
- 训练模型:使用训练集训练模型。
- 计算非合群分数(Nonconformity Score):衡量预测与实际值的差异。例如:
- 回归任务:残差绝对值
$ |y_i - \hat{y}_i| $
。 - 分类任务:1减去正确类别的预测概率
$ 1 - P(y_i|x_i) $
。
- 回归任务:残差绝对值
- 确定分位数:基于校准集的分数计算调整后的分位数
$q = \lceil (n+1)(1-\alpha) \rceil / n $
,其中$ n $
为校准集大小。 - 构建预测区间:新样本的预测区间为
$\hat{y}_{\text{new}} \pm q $
(回归)或包含概率高于阈值的类别集合(分类)。
优势
- 强理论保证:严格覆盖概率,无需分布假设。
- 灵活性:兼容任何模型,适应回归与分类任务。
- 实用性强:适用于小样本,直接反映模型预测的不确定性。
局限性
- 数据交换性假设:要求数据满足交换性(弱于独立同分布),可能不适用于时间序列等有序数据。
- 区间宽度依赖模型质量:模型预测越准,区间越窄;反之则越宽。
应用场景
- 高风险领域:如医疗诊断(预测疾病风险区间)、金融(风险估值)等需可靠不确定性的场景。
- 模型评估:对比不同模型的不确定性估计能力。
示例
回归任务:校准集残差为[0.5, 1.2, 2.0],置信水平95%时,调整后分位数取第3大值(2.0)。新预测值为10,则区间为[8.0, 12.0],保证真实值有95%概率落入。
分类任务:某样本正确类别的预测概率为0.6,阈值为0.3(对应1-α=95%),则预测集合包含所有概率≥0.4的类别,确保真实类别被包含的概率≥95%。
总之,Conformal Inference通过数据驱动的方法,为复杂模型提供可靠的不确定性估计,增强其在现实应用中的可信度。
以下是关于 Conformal Inference(保形推断) 的经典论文和最新研究推荐,涵盖理论、应用及扩展方向。这些论文适合深入理解其数学基础、算法实现及实际应用场景。
参考文献
1. 奠基性论文
(1) Algorithmic Learning in a Random World
- 作者: Vovk, Gammerman, Shafer (2005)
- 贡献: 系统提出保形推断的框架,定义了非合群分数(nonconformity score)和覆盖概率保证的数学证明,是保形推断的理论基石。
(2) Conformal Prediction for Reliable Machine Learning
- 作者: Balasubramanian, Ho, Vovk (2014)
- 贡献: 综述性论文,总结保形推断在分类、回归、异常检测等任务中的应用,并讨论与贝叶斯方法的对比。
2. 分类与回归任务
(3) Conformal Prediction Under Covariate Shift
- 作者: Tibshirani et al. (2019)
- 贡献: 提出协变量偏移(covariate shift)下的保形推断方法,扩展了传统方法的适用范围。
(4) Distribution-Free Predictive Inference for Regression
- 作者: Lei et al. (2018)
- 贡献: 针对回归任务提出分位数回归与保形推断结合的方法(Conformalized Quantile Regression, CQR),生成更紧致的预测区间。
(5) Classification with Valid and Adaptive Coverage
- 作者: Angelopoulos et al. (2020)
- 贡献: 提出自适应保形分类(Adaptive Conformal Classification),动态调整预测集合大小以提升效率。
3. 时间序列与非交换数据
(6) Conformal Prediction for Time Series
- 作者: Xu & Xie (2022)
- 贡献: 解决时间序列数据因违反交换性假设(exchangeability)带来的挑战,提出滑动窗口或分块保形推断方法。
(7) Conformal PID Control for Time Series Prediction
- 作者: Lindemann et al. (2023)
- 贡献: 将保形推断与PID控制结合,动态调整预测区间宽度,适应非平稳时间序列。
4. 深度学习与高维数据
(8) Conformal Prediction for Deep Classifiers via Clustering
- 作者: Lu et al. (2021)
- 贡献: 针对深度神经网络分类任务,提出基于聚类的保形推断方法,降低预测集合的冗余性。
(9) Uncertainty Quantification with Conformal Prediction for Deep Learning
- 作者: Angelopoulos et al. (2022)
- 贡献: 系统性讨论如何将保形推断与深度学习结合,提供代码库(如
TorchCP
)实现。
5. 最新扩展方向
(10) Conformal Risk Control
- 作者: Angelopoulos et al. (2022)
- 贡献: 将保形推断推广到更一般的风险控制框架,适用于多任务学习与复杂损失函数。
(11) Conformal Off-Policy Prediction for Contextual Bandits
- 作者: Bastani et al. (2023)
- 贡献: 在强化学习(Contextual Bandits)中应用保形推断,解决策略评估的覆盖性问题。
6. 实用教程与书籍
- 书籍: Conformal Prediction: A Unified Review of Theory and New Challenges (2023)
- 最新综述,涵盖理论、算法及在因果推断、联邦学习等场景的扩展。
- 教程代码库:
选择建议
- 入门:从奠基性论文(1-2)和教程代码库开始,理解核心思想。
- 应用场景:
- 时间序列选(6-7),
- 深度学习选(8-9),
- 分类回归优化选(3-5)。
- 理论扩展:关注(10-11)的前沿方向。
保形推断的核心优势在于其非参数性和严格的覆盖保证,但需注意其数据交换性假设是否满足(如时间序列需调整方法)。
nonconformity measure
“Nonconformity measure”(非符合性度量)是统计学习和机器学习中的一个术语,尤其在 Conformal Prediction(保形预测)框架中扮演核心角色。它用于量化一个数据点与已有数据分布或模型预测的“不一致程度”,从而评估新样本的异常性或不确定性。
核心概念
-
基本定义:
- Nonconformity measure 是一个函数,用于计算某个数据点(或样本)与已有数据/模型的“不匹配程度”。
- 值越大,表示该数据点越不符合当前模型或数据分布,可能属于异常或需要特别关注。
-
在 Conformal Prediction 中的作用:
- Conformal Prediction 是一种生成预测集合并提供统计置信度的方法,确保预测结果在指定置信水平下覆盖真实值。
- 通过 nonconformity measure,算法会为每个候选预测结果计算一个“不一致分数”,从而确定哪些预测应被包含在置信区间或预测集合中。
应用示例
-
分类任务: 假设一个图像分类模型需要判断一张新图片是否属于“猫”。对于每个可能的类别(猫、狗、鸟等),nonconformity measure 可能基于模型输出的概率,计算该图片与各类别训练数据的差异。若“猫”类别的差异分数最低,则该图片更可能被归为“猫”。
-
回归任务: 在房价预测中,nonconformity measure 可以是预测房价与实际房价的绝对误差。误差越大,样本的“非符合性”越高。
技术意义
- 异常检测:高 nonconformity score 可能标志异常值(outlier)。
- 不确定性量化:在 Conformal Prediction 中,通过非符合性分数生成预测区间(例如,“房价在 80% 置信度下位于 [500k, 600k]”)。
- 模型校准:帮助评估模型对新数据的泛化能力。
与其他概念的区别
- Loss Function(损失函数):损失函数用于训练模型,而非符合性度量用于评估模型预测与数据的一致性。
- Anomaly Score(异常分数):两者类似,但 nonconformity measure 更强调统计框架下的置信度保证。
简而言之,nonconformity measure 是连接数据、模型与统计置信度的桥梁,尤其在需要可靠不确定性估计的场景(如医疗诊断、金融风险评估)中至关重要。
这段话讨论了保形预测(Conformal Prediction)中 非对称非符合性度量(Asymmetric Nonconformity Measure) 的设计及其意义。以下是逐层解析:
度量方式
-
对称与非对称的对比
- 对称非符合性度量(如公式 2.30 或 2.32):通常使用绝对值(如预测误差的绝对值
$ |y_i - \hat{y}_i| $
),表示“偏离程度的量级”,不区分方向(如高估或低估)。 - 非对称非符合性度量(如公式 2.33 或 2.34):允许区分方向(如
$ y_i - \hat{y}_i $
或$ \hat{y}_i - y_i $
),可衡量样本对某一特定属性的符合程度(例如“标签是否足够大”或“标签是否足够小”)。
- 对称非符合性度量(如公式 2.30 或 2.32):通常使用绝对值(如预测误差的绝对值
-
非对称度量的意义
- 公式 2.33:
$ \alpha_i := y_i - \hat{y}_i $
- 含义:实际值
$ y_i $
比预测值$ \hat{y}_i $
大多少。 - 用途:衡量样本
$ z_i $
对“标签较大”这一属性的符合程度。例如,若 `$\alpha_i$ 很大,说明真实标签远超预测,可能属于异常(或需特别关注的高值样本)。
- 含义:实际值
- 公式 2.34:
$ \alpha_i := \hat{y}_i - y_i $
- 含义:预测值
$ \hat{y}_i $
比实际值$ y_i $
大多少。 - 用途:衡量样本
$ z_i $
对“标签较小”这一属性的符合程度。例如,若$\alpha_i $
很大,说明预测显著高估真实值,可能属于低估异常。
- 含义:预测值
- 公式 2.33:
技术意义
-
灵活建模单侧关注问题
- 在现实场景中,我们可能只关心某一方向的偏差(例如:
- 金融风控:更关注损失超过预期的样本(即
$ y_i - \hat{y}_i $
为正的情况)。 - 医疗诊断:更关注检测结果远低于预期的样本(即
$ \hat{y}_i - y_i $
为正的情况)。
- 金融风控:更关注损失超过预期的样本(即
- 非对称度量允许针对特定方向定义“非符合性”,从而生成单侧置信区间或异常检测规则。
- 在现实场景中,我们可能只关心某一方向的偏差(例如:
-
与通用框架的关系
- 非对称度量(如 2.33 和 2.34)是通用非符合性度量(公式 2.31)的特例。
- 通用框架(公式 2.31):允许自定义非符合性函数,只需满足“可比较性”(即不同样本的非符合性分数可排序)。
- 非对称实现:通过调整符号(如
$ y_i - \hat{y}_i $
或$ \hat{y}_i - y_i $
),将方向信息编码到分数中。
示例说明
场景:房价预测
- 对称度量:
$\alpha_i = |y_i - \hat{y}_i| $
- 关注预测误差的绝对值,无论实际房价高于或低于预测。
- 非对称度量:
- 公式 2.33:
$\alpha_i = y_i - \hat{y}_i $
- 正值越大,说明真实房价远高于预测(可能提示模型低估风险)。
- 公式 2.34:
$\alpha_i = \hat{y}_i - y_i $
- 正值越大,说明预测远高于真实房价(可能提示模型高估风险)。
- 公式 2.33:
应用:生成单侧置信区间
- 若使用
$\alpha_i = y_i - \hat{y}_i $
,则可生成 上限区间(如“房价有 95% 概率低于$ \hat{y}_i + \Delta $
”)。 - 若使用
$\alpha_i = \hat{y}_i - y_i $
,则可生成 下限区间(如“房价有 95% 概率高于$ \hat{y}_i - \Delta $
”)。
与 p 值的关系
- 非对称度量影响 p 值计算:
- p 值定义为“集合中非符合性分数大于等于当前样本的比例”。
- 若使用
$\alpha_i = y_i - \hat{y}_i $
,p 值小表示真实值显著高于预测(异常高值); - 若使用
$\alpha_i = \hat{y}_i - y_i $
,p 值小表示真实值显著低于预测(异常低值)。
总结
- 对称 vs 非对称:
- 对称度量关注偏差的“量级”,非对称度量关注偏差的“方向”。
- 实际价值:
- 允许模型针对业务需求(如风险偏好、单侧异常检测)灵活调整置信区间或异常判定规则。
- 理论一致性:
- 非对称度量仍属于保形预测的通用框架,仅通过函数设计引入方向信息。
重对数律
重对数律(Law of the Iterated Logarithm, LIL) 是概率论中描述独立同分布随机变量部分和波动性的精确渐近结果。它刻画了随机波动幅度的上下极限,揭示了大数定律和中心极限定理之间的更深层规律。
核心定义
设 $X_1, X_2, \dots $
是独立同分布(i.i.d.)的随机变量,满足:
- 均值
$\mathbb{E}[X_i] = \mu $
- 方差
$\text{Var}(X_i) = \sigma^2 < \infty $
定义部分和 $S_n = X_1 + X_2 + \dots + X_n $
,则重对数律表明:
$$ \limsup_{n \to \infty} \frac{S_n - n\mu}{\sigma \sqrt{2n \log \log n}} = 1 \quad \text{a.s.} $$
$$ \liminf_{n \to \infty} \frac{S_n - n\mu}{\sigma \sqrt{2n \log \log n}} = -1 \quad \text{a.s.} $$
即部分和的偏差被限制在 $\pm \sigma \sqrt{2n \log \log n} $
内,且此界限是紧的(几乎必然达到)。
直观解释
-
波动范围的精确刻画
- 大数定律:
$S_n / n \to \mu $
(均值收敛)。 - 中心极限定理:偏差按
$\sqrt{n} $
增长,服从正态分布。 - 重对数律:进一步给出偏差的极值波动幅度,由
$ \sqrt{n \log \log n} $
主导,精确到常数因子$\sigma \sqrt{2} $
。
- 大数定律:
-
“几乎必然”收敛 波动幅度在无限次观测中会被无限次接近上述上下界,但不会持续超出。
关键意义
-
理论深度
- 填补了大数定律(收敛性)与中心极限定理(分布形态)之间的空白,描述了极值波动的渐近行为。
-
应用场景
- 随机过程分析:如布朗运动的路径性质。
- 统计推断:评估估计量的收敛速度。
- 金融数学:资产价格波动幅度的极端情况建模。
示例说明
考虑一个简单对称随机游动(如抛硬币):
- 每次步长
$X_i $
为 +1 或 -1,概率各 0.5。 - 均值
$\mu = 0 $
,方差$ \sigma^2 = 1 $
。
根据重对数律,部分和 $S_n $
的极值波动满足:
`$$
\limsup_{n \to \infty} \frac{S_n}{\sqrt{2n \log \log n}} = 1 \quad \text{a.s.}
$$
这意味着,当 $ n $
极大时,随机游动的路径几乎必然会在 $\pm \sqrt{2n \log \log n} $
之间无限次触碰边界,但不会持续超出。
与其他定理的关系
定理 | 描述 | 缩放因子 |
---|---|---|
大数定律 (LLN) | 均值收敛 | $ n $ |
中心极限定理 (CLT) | 偏差分布趋近正态 | $\sqrt{n} $ |
重对数律 (LIL) | 极值波动的上下限 | $ \sqrt{n \log \log n} $ |
注意事项
- 独立性假设:随机变量必须独立同分布。
- 方差有限性:若方差无限,结论可能不成立。
- 多维推广:存在高维版本,但形式更复杂。
总结
重对数律揭示了随机变量部分和的极值波动被严格约束在 $\pm \sigma \sqrt{2n \log \log n} $
内,是概率论中对随机性本质的深刻刻画,为理解复杂随机现象提供了理论基石。