标准保形推断
Tan Jay / 2025-03-03
保形推断(Conformal Inference) 通过 验证集的非符合性分数分位数 构建预测区间,提供无分布假设的统计覆盖保证。其核心优势在于:
- 无分布假设:仅需可交换性,不依赖数据分布形态。
- 灵活性:适配任意基模型(黑箱模型亦可)。
- 实用性:适用于高风险场景(如医疗、金融)的可靠不确定性量化。
以下是保形推断的标准流程,适用于回归或分类任务,旨在生成具有统计保证的预测区间或集合。流程分步详解如下:
数据准备 → 模型训练 → 计算验证集非符合性分数 → 确定分位数阈值 → 构建预测区间 → 验证覆盖概率
1. 数据准备
将数据集划分为 训练集(Train)、验证集(Calibration) 和 测试集(Test):
- 训练集:用于训练基模型(如回归模型、分类器)。
- 验证集:用于计算非符合性分数(Nonconformity Scores)并确定分位数阈值。
- 测试集:评估预测区间的覆盖概率(Coverage Probability)。
示例划分比例:
- 训练集(60%)、验证集(20%)、测试集(20%)。
注:验证集和测试集需满足可交换性(Exchangeability)假设。
2. 模型训练
使用训练集训练一个基模型(Base Model):
- 回归任务:如线性回归、随机森林、神经网络等。
- 分类任务:如逻辑回归、支持向量机、梯度提升树等。
模型输出:
- 回归:预测值
$\hat{y} = \mu(x)$。 - 分类:类别概率分布
$P(y \mid x)$。
3. 计算非符合性分数(Nonconformity Scores)
对验证集中的每个样本 $(x_i, y_i)$,计算其与模型预测的 不一致程度:
-
回归任务
- 绝对误差:
$s_i = |\hat{y}_i - y_i|$。 - 其他选择:标准化误差、分位数损失等。
- 绝对误差:
-
分类任务
- 概率补数:
$s_i = 1 - P(y_i \mid x_i)$(真实类别的概率越低,分数越高)。 - 其他选择:基于间隔(Margin)的分数、熵等。
- 概率补数:
4. 确定分位数阈值(Quantile Threshold)
利用验证集的非符合性分数计算分位数阈值 $\hat{t}$,确保覆盖概率至少为 $1 - \alpha$:
$$ \hat{t} = \text{Quantile} \left( 1 - \alpha + \frac{1}{n_{\text{cal}} + 1}; \text{scores} \right) $$
$n_{\text{cal}}$:验证集样本数量。- 调整项
$\frac{1}{n_{\text{cal}} + 1}$:保证覆盖概率的有限样本有效性。
公式解释:
将验证集分数排序后,取第 $\lceil (1 - \alpha)(n_{\text{cal}} + 1) \rceil$ 小的值作为阈值。还可以用其他依据选择分位数阈值,比如:稳健分位数阈值。
5. 构建预测区间或集合
对测试样本 $x_{\text{test}}$,生成预测区间或集合:
-
回归任务
$ C_{\text{test}}(x_{\text{test}}) = \left[ \hat{y}_{\text{test}} - \hat{t}, \, \hat{y}_{\text{test}} + \hat{t} \right] $ -
分类任务
$C_{\text{test}}(x_{\text{test}}) = \left\{ y | P(y \mid x_{\text{test}}) \geq 1 - \hat{t} \right\}$或通过累积概率排序选择最可能的类别集合。
6. 验证覆盖概率
在测试集上评估预测区间/集合的覆盖概率: $$ \text{Coverage} = \frac{1}{n_{\text{test}}} \sum_{i=1}^{n_{\text{test}}} \mathbf{1}\{y_i \in C(x_i)\} $$
- 目标:覆盖率
$\geq 1 - \alpha$(如设定$\alpha = 0.1$,则覆盖率应$\geq 90\%$)。
示例:波士顿房价预测
- 数据划分:
506个样本 → 训练集(303)、验证集(101)、测试集(102)。 - 模型训练:
随机森林回归模型。 - 非符合性分数:
验证集样本的预测误差绝对值$|y_i - \hat{y}_i|$。 - 分位数阈值:
$\alpha = 0.1$→ 取验证集误差的第91大值作为$\hat{t}$。 - 预测区间:
新样本预测值 ±$\hat{t}$。 - 覆盖验证:
测试集中至少90%的真实房价落在区间内。
关键注意事项
- 可交换性假设:
数据需满足可交换性(如i.i.d.或有限总体不放回抽样),否则覆盖概率可能失效。 - 分位数调整:
验证集大小影响阈值稳定性,小样本时覆盖率可能波动。 - 非符合性评分选择:
分数函数需与任务匹配(如回归用绝对误差,分类用概率补数)。
补充
在保形推断中,分位数阈值 $\hat{t}$ 的正确计算公式和详细推导如下:
数学公式
给定显著性水平 $\alpha$(如 $\alpha = 0.1$ 对应 90% 置信水平),验证集大小为 $n_{\text{cal}}$,分位数阈值的计算公式为:
$$
\hat{t} = \text{Quantile}\left(1 - \alpha + \frac{1}{n_{\text{cal}} + 1}; \text{scores}\right)
$$
或等价地:
$$
\hat{t} = \text{第 } \left\lceil (1 - \alpha)(n_{\text{cal}} + 1) \right\rceil \text{小的非符合性分数}
$$
公式详解
1. 公式推导
-
目标:保证覆盖概率至少为
$1 - \alpha$,即: $$ P(Y_{\text{test}} \in C(X_{\text{test}})) \geq 1 - \alpha $$ -
核心思想:
使用验证集的非符合性分数$\{s_1, s_2, \dots, s_{n_{\text{cal}}}\}$,调整分位数以补偿有限样本偏差。 -
调整项
$\frac{1}{n_{\text{cal}} + 1}$:
对分位数位置进行校正,确保有限样本下的覆盖概率不低于$1 - \alpha$。
公式中的$n_{\text{cal}} + 1$是因为在计算分位数时,需将测试样本的非符合性分数(假设为$s_{\text{test}}$)也纳入排序后的分位数估计。
2. 计算步骤
- 排序非符合性分数:
将验证集的非符合性分数从小到大排序:
$$ s_{(1)} \leq s_{(2)} \leq \dots \leq s_{(n_{\text{cal}})} $$ - 确定分位数位置:
计算分位数的索引位置: $$ k = \left\lceil (1 - \alpha)(n_{\text{cal}} + 1) \right\rceil $$ 其中,$\lceil \cdot \rceil$表示向上取整。 - 取第
$k$小的分数作为阈值:
$$ \hat{t} = s_{(k)} $$
示例说明
假设:
- 验证集大小
$n_{\text{cal}} = 100$ - 显著性水平
$\alpha = 0.1$(即 90% 置信水平)
则:
$$
k = \left\lceil (1 - 0.1)(100 + 1) \right\rceil = \left\lceil 0.9 \times 101 \right\rceil = \left\lceil 90.9 \right\rceil = 91
$$
因此,$\hat{t}$ 取验证集排序后的第 91 小的非符合性分数。
调整项的意义
-
有限样本校正:
理想情况下,无限样本时直接使用分位数$1 - \alpha$,但有限样本需通过调整项补偿偏差。
例如,当$n_{\text{cal}} = 100$时,调整后的分位数位置为$1 - \alpha + \frac{1}{n_{\text{cal}} + 1} = 0.9 + \frac{1}{101} \approx 0.9099$,而非简单的 0.9。 -
覆盖概率保证:
该调整确保: $$ P(Y_{\text{test}} \in C(X_{\text{test}})) \geq 1 - \alpha $$ 即使在小样本场景下,覆盖概率也不会低于预设值。
常见错误
-
忽略调整项:
直接使用$k = \lceil (1 - \alpha)n_{\text{cal}} \rceil$,导致覆盖概率不足。
错误示例:
$n_{\text{cal}} = 100, \alpha = 0.1 \Rightarrow k = 90$,此时实际覆盖率可能仅接近 90%,而非至少 90%。 -
分母错误:
误用$n_{\text{cal}}$而非$n_{\text{cal}} + 1$,导致分位数位置偏差。
总结
分位数阈值 $\hat{t}$ 的正确计算是保形推断有效性的核心。其公式为:
$$
\hat{t} = s_{(k)}, \quad k = \left\lceil (1 - \alpha)(n_{\text{cal}} + 1) \right\rceil
$$
通过引入调整项 $\frac{1}{n_{\text{cal}} + 1}$,保形推断在有限样本下仍能严格保证覆盖概率不低于 $1 - \alpha$。这一机制是保形推断理论严谨性的关键体现。
