标准保形推断

Tan Jay / 2025-03-03

保形推断（Conformal Inference） 通过 验证集的非符合性分数分位数 构建预测区间，提供无分布假设的统计覆盖保证。其核心优势在于：

无分布假设：仅需可交换性，不依赖数据分布形态。
灵活性：适配任意基模型（黑箱模型亦可）。
实用性：适用于高风险场景（如医疗、金融）的可靠不确定性量化。

以下是保形推断的标准流程，适用于回归或分类任务，旨在生成具有统计保证的预测区间或集合。流程分步详解如下：

数据准备 → 模型训练 → 计算验证集非符合性分数 → 确定分位数阈值 → 构建预测区间 → 验证覆盖概率

1. 数据准备

将数据集划分为 训练集（Train）、验证集（Calibration） 和 测试集（Test）：

训练集：用于训练基模型（如回归模型、分类器）。
验证集：用于计算非符合性分数（Nonconformity Scores）并确定分位数阈值。
测试集：评估预测区间的覆盖概率（Coverage Probability）。

示例划分比例：

训练集（60%）、验证集（20%）、测试集（20%）。
注：验证集和测试集需满足可交换性（Exchangeability）假设。

2. 模型训练

使用训练集训练一个基模型（Base Model）：

回归任务：如线性回归、随机森林、神经网络等。
分类任务：如逻辑回归、支持向量机、梯度提升树等。

模型输出：

回归：预测值 $\hat{y} = \mu(x)$ 。
分类：类别概率分布 $P(y \mid x)$ 。

3. 计算非符合性分数（Nonconformity Scores）

对验证集中的每个样本 $(x_i, y_i)$ ，计算其与模型预测的 不一致程度：

回归任务
- 绝对误差： $s_i = |\hat{y}_i - y_i|$ 。
- 其他选择：标准化误差、分位数损失等。
分类任务
- 概率补数： $s_i = 1 - P(y_i \mid x_i)$ （真实类别的概率越低，分数越高）。
- 其他选择：基于间隔（Margin）的分数、熵等。

4. 确定分位数阈值（Quantile Threshold）

利用验证集的非符合性分数计算分位数阈值 $\hat{t}$ ，确保覆盖概率至少为 $1 - \alpha$ ：

$$ \hat{t} = \text{Quantile} \left( 1 - \alpha + \frac{1}{n_{\text{cal}} + 1}; \text{scores} \right) $$

$n_{\text{cal}}$ ：验证集样本数量。
调整项 $\frac{1}{n_{\text{cal}} + 1}$ ：保证覆盖概率的有限样本有效性。

公式解释：
将验证集分数排序后，取第 $\lceil (1 - \alpha)(n_{\text{cal}} + 1) \rceil$ 小的值作为阈值。还可以用其他依据选择分位数阈值，比如：稳健分位数阈值。

5. 构建预测区间或集合

对测试样本 $x_{\text{test}}$ ，生成预测区间或集合：

回归任务 $ C_{\text{test}}(x_{\text{test}}) = \left[ \hat{y}_{\text{test}} - \hat{t}, \, \hat{y}_{\text{test}} + \hat{t} \right] $
分类任务 $C_{\text{test}}(x_{\text{test}}) = \left\{ y | P(y \mid x_{\text{test}}) \geq 1 - \hat{t} \right\}$ 或通过累积概率排序选择最可能的类别集合。

6. 验证覆盖概率

在测试集上评估预测区间/集合的覆盖概率： $$ \text{Coverage} = \frac{1}{n_{\text{test}}} \sum_{i=1}^{n_{\text{test}}} \mathbf{1}\{y_i \in C(x_i)\} $$

目标：覆盖率 $\geq 1 - \alpha$ （如设定 $\alpha = 0.1$ ，则覆盖率应 $\geq 90\%$ ）。

示例：波士顿房价预测

数据划分：
506个样本 → 训练集（303）、验证集（101）、测试集（102）。
模型训练：
随机森林回归模型。
非符合性分数：
验证集样本的预测误差绝对值 $|y_i - \hat{y}_i|$ 。
分位数阈值：
$\alpha = 0.1$ → 取验证集误差的第91大值作为 $\hat{t}$ 。
预测区间：
新样本预测值 ± $\hat{t}$ 。
覆盖验证：
测试集中至少90%的真实房价落在区间内。

关键注意事项

可交换性假设：
数据需满足可交换性（如i.i.d.或有限总体不放回抽样），否则覆盖概率可能失效。
分位数调整：
验证集大小影响阈值稳定性，小样本时覆盖率可能波动。
非符合性评分选择：
分数函数需与任务匹配（如回归用绝对误差，分类用概率补数）。

补充

在保形推断中，分位数阈值 $\hat{t}$ 的正确计算公式和详细推导如下：

数学公式

给定显著性水平 $\alpha$ （如 $\alpha = 0.1$ 对应 90% 置信水平），验证集大小为 $n_{\text{cal}}$ ，分位数阈值的计算公式为： $$ \hat{t} = \text{Quantile}\left(1 - \alpha + \frac{1}{n_{\text{cal}} + 1}; \text{scores}\right) $$ 或等价地： $$ \hat{t} = \text{第 } \left\lceil (1 - \alpha)(n_{\text{cal}} + 1) \right\rceil \text{小的非符合性分数} $$

公式详解

1. 公式推导

目标：保证覆盖概率至少为 $1 - \alpha$ ，即： $$ P(Y_{\text{test}} \in C(X_{\text{test}})) \geq 1 - \alpha $$
核心思想：
使用验证集的非符合性分数 $\{s_1, s_2, \dots, s_{n_{\text{cal}}}\}$ ，调整分位数以补偿有限样本偏差。
调整项 $\frac{1}{n_{\text{cal}} + 1}$ ：
对分位数位置进行校正，确保有限样本下的覆盖概率不低于 $1 - \alpha$ 。
公式中的 $n_{\text{cal}} + 1$ 是因为在计算分位数时，需将测试样本的非符合性分数（假设为 $s_{\text{test}}$ ）也纳入排序后的分位数估计。

2. 计算步骤

排序非符合性分数：
将验证集的非符合性分数从小到大排序：
$$ s_{(1)} \leq s_{(2)} \leq \dots \leq s_{(n_{\text{cal}})} $$
确定分位数位置：
计算分位数的索引位置： $$ k = \left\lceil (1 - \alpha)(n_{\text{cal}} + 1) \right\rceil $$ 其中， $\lceil \cdot \rceil$ 表示向上取整。
取第 $k$ 小的分数作为阈值：
$$ \hat{t} = s_{(k)} $$

示例说明

假设：

验证集大小 $n_{\text{cal}} = 100$
显著性水平 $\alpha = 0.1$ （即 90% 置信水平）

则： $$ k = \left\lceil (1 - 0.1)(100 + 1) \right\rceil = \left\lceil 0.9 \times 101 \right\rceil = \left\lceil 90.9 \right\rceil = 91 $$ 因此， $\hat{t}$ 取验证集排序后的第 91 小的非符合性分数。

调整项的意义

有限样本校正：
理想情况下，无限样本时直接使用分位数 $1 - \alpha$ ，但有限样本需通过调整项补偿偏差。
例如，当 $n_{\text{cal}} = 100$ 时，调整后的分位数位置为 $1 - \alpha + \frac{1}{n_{\text{cal}} + 1} = 0.9 + \frac{1}{101} \approx 0.9099$ ，而非简单的 0.9。
覆盖概率保证：
该调整确保： $$ P(Y_{\text{test}} \in C(X_{\text{test}})) \geq 1 - \alpha $$ 即使在小样本场景下，覆盖概率也不会低于预设值。

常见错误

忽略调整项：
直接使用 $k = \lceil (1 - \alpha)n_{\text{cal}} \rceil$ ，导致覆盖概率不足。
错误示例：
$n_{\text{cal}} = 100, \alpha = 0.1 \Rightarrow k = 90$ ，此时实际覆盖率可能仅接近 90%，而非至少 90%。
分母错误：
误用 $n_{\text{cal}}$ 而非 $n_{\text{cal}} + 1$ ，导致分位数位置偏差。

总结

分位数阈值 $\hat{t}$ 的正确计算是保形推断有效性的核心。其公式为： $$ \hat{t} = s_{(k)}, \quad k = \left\lceil (1 - \alpha)(n_{\text{cal}} + 1) \right\rceil $$ 通过引入调整项 $\frac{1}{n_{\text{cal}} + 1}$ ，保形推断在有限样本下仍能严格保证覆盖概率不低于 $1 - \alpha$ 。这一机制是保形推断理论严谨性的关键体现。