当前位置：首页 > news >正文

Instruct-GPT奖励模型的损失函数与反向传播机制解析

news 2025/7/1 6:04:30

Instruct-GPT奖励模型的损失函数与反向传播机制解析

- - - 一、损失函数的数学本质与偏好表达
    - 二、损失函数如何驱动偏好排序
    - 三、多响应排序的批量处理机制
    - 四、反向传播的参数更新逻辑
    - 五、从比较对到全序关系的自动推导
    - 六、与传统排序模型的本质区别

总结：损失函数使用的比较对排序损失 (pairwise ranking loss) ，由于 $\sigma$ 激活函数结果一定在0-1之间，使得对数运算log之后的值一定小于0，然后加上 log 外面的负号一定大于0，因此loss一定大于0，从而在反向传播中一定有损失，通过让 loss 不断下降，从而达到σ函数内部的rw-rl的差值更大(增大rw，减小rl，直到两者差值接近于1，模型收敛)，从而降低损失。从而倾向于人类的倾向。

一、损失函数的数学本质与偏好表达

Instruct-GPT使用的奖励模型损失函数为：
$\text{loss}(\theta) = -\frac{1}{\binom{K}{2}} \mathbb{E}_{(x,y_w,y_l) \sim D} \left[ \log \left( \sigma \left( r_\theta(x, y_w) - r_\theta(x, y_l) \right) \right) \right]$

核心构成解析：

输入对定义： $x, y_w, y_l)$ 表示同一个prompt $x$ 对应的两个响应，其中 $y_w$ 是人类偏好的响应， $y_l$ 是非偏好响应
奖励差值： $r_\theta(x, y_w) - r_\theta(x, y_l)$ 表示模型对两个响应的奖励值之差
sigmoid函数： $\sigma(z) = \frac{1}{1+e^{-z}}$ ，其性质是：
- 当 $z > 0$ 时， $\sigma(z) > 0.5$ ，且 $z$ 越大， $\sigma(z)$ 越接近1
- 当 $z < 0$ 时， $\sigma(z) < 0.5$ ，且 $z$ 越小， $\sigma(z)$ 越接近0
对数似然： $\log(\sigma(z))$ 用于度量模型预测与人类偏好的一致性，当 $z > 0$ 时，该值为正，且 $z$ 越大值越大；当 $z < 0$ 时，该值为负

二、损失函数如何驱动偏好排序

假设人类标注了一个偏好关系： $y_w \succ y_l$ （即 $y_w$ 比 $y_l$ 更优），损失函数的优化目标是最大化 $\sigma(r_\theta(x, y_w) - r_\theta(x, y_l))$ ，这等价于最大化 $r_\theta(x, y_w) - r_\theta(x, y_l)$ 。

具体驱动过程：

当模型初始预测 $r_\theta(x, y_w) < r_\theta(x, y_l)$ 时：
- 奖励差值为负， $\sigma(z) < 0.5$ ， $\log(\sigma(z))$ 为负
- 损失函数值为正（因为前面有负号），模型产生"惩罚"
- 反向传播会调整参数 $\theta$ ，使 $r_\theta(x, y_w)$ 增大或 $r_\theta(x, y_l)$ 减小
当模型预测 $r_\theta(x, y_w) > r_\theta(x, y_l)$ 时：
- 奖励差值为正， $\sigma(z) > 0.5$ ， $\log(\sigma(z))$ 为正
- 损失函数值为负，模型产生"奖励"
- 反向传播会保持或增强这种参数状态

三、多响应排序的批量处理机制

以 $K = 4$ 为例，假设标注者对4个响应的排序为 $y_1 \succ y_2 \succ y_3 \succ y_4$ ，则产生 $\binom{4}{2}=6$ 个比较对：

$y_1, y_2), (y_1, y_3), (y_1, y_4)$
$y_2, y_3), (y_2, y_4)$
$y_3, y_4)$

批量训练的关键优势：

计算效率：对4个响应仅需4次前向传播，而非6次
相关性利用：同一prompt的响应具有内在相关性，批量处理避免过拟合
联合优化：6个比较对共同约束模型参数，使奖励值满足 $r_1 > r_2 > r_3 > r_4$

四、反向传播的参数更新逻辑

损失函数对参数 $\theta$ 的梯度为：
$\nabla_\theta \text{loss}(\theta) = -\frac{1}{\binom{K}{2}} \sum_{(y_w,y_l)} \left( 1 - \sigma \left( r_\theta(x, y_w) - r_\theta(x, y_l) \right) \right) \cdot \left( \nabla_\theta r_\theta(x, y_w) - \nabla_\theta r_\theta(x, y_l) \right)$

梯度方向解析：

当 $r_\theta(x, y_w) < r_\theta(x, y_l)$ 时， $\sigma(z) > 0.5$ ，梯度会推动 $\nabla_\theta r_\theta(x, y_w)$ 增大或 $\nabla_\theta r_\theta(x, y_l)$ 减小
当 $r_\theta(x, y_w) > r_\theta(x, y_l)$ 时， $\sigma(z) < 0.5$ ，梯度对参数的调整力度减弱
当 $r_\theta(x, y_w) \gg r_\theta(x, y_l)$ 时， $\sigma(z) \approx 0$ ，梯度接近0，训练收敛