当前位置：首页 > news >正文

大模型对齐算法合集(一)

news 2025/8/18 9:12:10

大模型对齐算法合集

DPO

定理：
$∑xμ(x)=1\max_{\mu} \mathbb{E}_{x \sim \mu(x)} \left\{ f(x) \right\} + H(\mu), \quad \text{s.t. } \sum_x \mu(x) = 1$

$distribution\Rightarrow \mu^*(x) = \frac{e^{f(x)}}{\sum_x e^{f(x)}} \quad \Rightarrow \text{Boltzmann distribution}$

证明：
$max⁡μEx∼μ(x){f(x)}+H(μ)=max⁡μEx∼μ(x){f(x)−log⁡μ(x)}=min⁡μEx∼μ(x){log⁡μ(x)−log⁡exp⁡(f(x))}=min⁡μEx∼μ(x){log⁡μ(x)exp⁡(f(x))}=min⁡μEx∼μ(x){log⁡μ(x)/zˉexp⁡(f(x))/zˉ},zˉ=∑xexp⁡(f(x))=min⁡μEx∼μ(x){log⁡μ(x)1zˉexp⁡(f(x))−log⁡zˉ}=min⁡μEx∼μ(x){log⁡μ(x)1zˉexp⁡(f(x))}⏟DKL(μ(x)∥1zˉexp⁡(f(x)))\begin{aligned} &\max_{\mu} \mathbb{E}_{x \sim \mu(x)} \left\{ f(x) \right\} + H(\mu) \\ &= \max_{\mu} \mathbb{E}_{x \sim \mu(x)} \left\{ f(x) - \log \mu(x) \right\} \\ &= \min_{\mu} \mathbb{E}_{x \sim \mu(x)} \left\{ \log \mu(x) - \log \exp(f(x)) \right\} \\ &= \min_{\mu} \mathbb{E}_{x \sim \mu(x)} \left\{ \log \frac{\mu(x)}{\exp(f(x))} \right\} \\ &= \min_{\mu} \mathbb{E}_{x \sim \mu(x)} \left\{ \log \frac{\mu(x)/\bar{z}}{\exp(f(x))/\bar{z}} \right\}, \quad \bar{z} = \sum_x \exp(f(x)) \\ &= \min_{\mu} \mathbb{E}_{x \sim \mu(x)} \left\{ \log \frac{\mu(x)}{\frac{1}{\bar{z}} \exp(f(x))} - \log \bar{z} \right\} \\ &= \min_{\mu} \underbrace{\mathbb{E}_{x \sim \mu(x)} \left\{ \log \frac{\mu(x)}{\frac{1}{\bar{z}} \exp(f(x))} \right\}}_{D_{KL}\left( \mu(x) \,\|\, \frac{1}{\bar{z}} \exp(f(x)) \right)} \end{aligned}$
$⇒μ∗(x)=1zˉexp⁡(f(x))=ef(x)∑xef(x)\Rightarrow \mu^*(x) = \frac{1}{\bar{z}} \exp(f(x)) = \frac{e^{f(x)}}{\sum_x e^{f(x)}}$

$max⁡πθEx∼DEy∼πθ(y∣x){rϕ(x,y)}−βDKL(πθ(y∣x)∥πref(y∣x))\text{RLHF: } \max_{\pi_\theta} \mathbb{E}_{x \sim D} \mathbb{E}_{y \sim \pi_\theta(y|x)} \left\{ r_\phi(x, y) \right\} - \beta \, D_{KL}\left( \pi_\theta(y|x) \,\|\, \pi_{\text{ref}}(y|x) \right)$ $\mathbb{E}_{x \sim D} \max_{\pi_\theta} \mathbb{E}_{y \sim \pi_\theta(y|x)} \left\{ r_\phi(x, y) - \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)} \right\}$ $\mathbb{E}_{x \sim D} \max_{\pi_\theta} \left\{ \mathbb{E}_{y \sim \pi_\theta(y|x)} \left\{ r_\phi(x, y) + \beta \log \pi_{\text{ref}}(y|x) \right\} + \beta \, H(\pi_\theta(y|x)) \right\}$ $⟸max⁡πθEy∼πθ(y∣x){1βrϕ(x,y)+log⁡πref(y∣x)⏟f(y∣x)}+H(πθ(y∣x))⏟H(μ(y∣x))\Longleftarrow \max_{\pi_\theta} \mathbb{E}_{y \sim \pi_\theta(y|x)} \left\{ \underbrace{\frac{1}{\beta} r_\phi(x, y) + \log \pi_{\text{ref}}(y|x)}_{f(y|x)} \right\} + \underbrace{H(\pi_\theta(y|x))}_{H(\mu(y|x))}$

$⇒πθ∗(y∣x)=e1βrϕ(x,y)⋅πref(y∣x)Z(x)⇒g∗(x,y)=β(log⁡πθ∗(y∣x)πref(y∣x))+βlog⁡Z\Rightarrow \pi_\theta^*(y|x) = \frac{e^{\frac{1}{\beta} r_\phi(x, y)} \cdot \pi_{\text{ref}}(y|x)}{Z(x)} \quad \Rightarrow g^*(x, y) = \beta \left( \log \frac{\pi_\theta^*(y|x)}{\pi_{\text{ref}}(y|x)} \right) + \beta \log Z$ $p(ym>yn∣x)=σ{β(log⁡πθ(ym∣x)πref(ym∣x)−log⁡πθ(yn∣x)πref(yn∣x))}\Rightarrow \text{BT: } p(y_m > y_n \mid x) = \sigma \left\{ \beta \left( \log \frac{\pi_\theta(y_m|x)}{\pi_{\text{ref}}(y_m|x)} - \log \frac{\pi_\theta(y_n|x)}{\pi_{\text{ref}}(y_n|x)} \right) \right\}$

Token-level PPO:

$max⁡θEx∼DEy∼πθ(y∣x){∑t=1Tr(st,yt)}−βDKL(πθ(y∣x)∥πref(y∣x))\max_{\theta} \mathbb{E}_{x \sim D} \mathbb{E}_{y \sim \pi_\theta(y|x)} \left\{ \sum_{t=1}^T r(s_t, y_t) \right\} - \beta \, D_{KL}\left( \pi_\theta(y|x) \,\|\, \pi_{\text{ref}}(y|x) \right)$

其中：
$ (s_t, y_t) = (x, y^{<t}) $

$\max_{\theta} \mathbb{E}_{x \sim D} \mathbb{E}_{y \sim \pi_\theta(y|x)} \left\{ \sum_{t=1}^T r(s_t, y_t) - \beta \log \frac{\pi_\theta(y_t \mid y^{<t}, x)}{\pi_{\text{ref}}(y_t \mid y^{<t}, x)} \right\}$ $\mathbb{E}_{x \sim D} \max_{\theta} \mathbb{E}_{y \sim \pi_\theta(y|x)} \left\{ \sum_{t=1}^T \underbrace{r(s_t, y_t) + \beta \log \pi_{\text{ref}}(y_t \mid s_t)}_{r'(s_t, y_t)} - \beta \log \pi_\theta(y_t \mid s_t) \right\}$ $\mathbb{E}_{x \sim D} \max_{\theta} \sum_{t=1}^T \mathbb{E}_{y_t \sim \pi_\theta(y_t|s_t)} \left\{ r'(s_t, y_t) - \beta \log \pi_\theta(y_t \mid s_t) \right\}$ $Q-learning)\Longleftarrow \max_{\theta} \sum_{t=1}^T \left\{ \mathbb{E}_{y_t \sim \pi_\theta(y_t|s_t)} \left\{ r'(s_t, y_t) \right\} + \beta \, H(\pi_\theta(y_t \mid s_t)) \right\} \quad \text{(Max-Entropy Soft Q-learning)}$

在时刻 $t$ 优化 $πθ(yt∣st)\pi_\theta(y_t|s_t)$ :

$\max_{\theta} \underbrace{\mathbb{E}_{y_t \sim \pi_\theta(y_t|s_t)}}_{\mu} \left\{ \underbrace{r'(s_t, y_t)}_{f(y_t|s_t)} + \underbrace{\sum_{k=t+1}^T \left\{ \mathbb{E}_{y_k \sim \pi_\theta^*(y_k|s_k)} \left\{ r'(s_k, y_k) \right\} + \beta H(\pi_\theta^*(y_k|s_k)) \right\}}_{\frac{1}{\beta} Q^*(s_t, y_t)}+ \beta H(\pi_\theta(y_t|s_t)) \right\}$

$⇒πθ∗(yt∣st)=exp⁡{1βr′(st,yt)+1β∑k=t+1T{Eyk∼πθ∗(yk∣sk){r′(sk,yk)}+βH(πθ∗(yk∣sk))}}Z(yt∣st)\Rightarrow \pi_\theta^*(y_t|s_t) = \frac{ \exp \left\{ \frac{1}{\beta} r'(s_t, y_t) + \frac{1}{\beta} \sum_{k=t+1}^T \left\{ \mathbb{E}_{y_k \sim \pi_\theta^*(y_k|s_k)} \left\{ r'(s_k, y_k) \right\} + \beta H(\pi_\theta^*(y_k|s_k)) \right\} \right\} }{Z(y_t|s_t)}$

其中令 $⇒1βQ∗(st,yt)=1βr′(st,yt)+1β∑k=t+1T{Eyk∼πθ∗(yk∣sk){r′(sk,yk)}+βH(πθ∗(yk∣sk))}\Rightarrow \frac{1}{\beta}Q^*(s_t,y_t) = \frac{1}{\beta} r'(s_t, y_t) + \frac{1}{\beta} \sum_{k=t+1}^T \left\{ \mathbb{E}_{y_k \sim \pi_\theta^*(y_k|s_k)} \left\{ r'(s_k, y_k) \right\} + \beta H(\pi_\theta^*(y_k|s_k)) \right\}$

$Z(yt∣st)=∑ytexp⁡{1βQ∗(st,yt)}=exp⁡{1βV∗(st)}\begin{aligned} Z(y_t|s_t) &= \sum_{y_t} \exp \left\{ \frac{1}{\beta} Q^*(s_t, y_t) \right\} \\ &= \exp \left\{ \frac{1}{\beta} V^*(s_t) \right\} \end{aligned}$

📌 说明与解释：

$∑ytexp⁡(1βQ∗(st,yt))\sum_{y_t} \exp\left( \frac{1}{\beta} Q^*(s_t, y_t) \right)$ ：这是对所有可能动作 $y_t$ 的软 Q 值指数和，即 partition function（配分函数），记作 $Z(s_t)$ 。
$V^*(s_t)$ ：软价值函数（soft value function），定义为： $V∗(st)=βlog⁡∑ytexp⁡(1βQ∗(st,yt))V^*(s_t) = \beta \log \sum_{y_t} \exp\left( \frac{1}{\beta} Q^*(s_t, y_t) \right)$ 因此有： $∑ytexp⁡(1βQ∗(st,yt))=exp⁡(1βV∗(st))\sum_{y_t} \exp\left( \frac{1}{\beta} Q^*(s_t, y_t) \right) = \exp\left( \frac{1}{\beta} V^*(s_t) \right)$
这个等式是最大熵强化学习中 Soft Bellman 方程 推导的关键一步，用于归一化最优策略： $πθ∗(yt∣st)=exp⁡(1βQ∗(st,yt))∑yt′exp⁡(1βQ∗(st,yt′))=exp⁡(1βQ∗(st,yt))exp⁡(1βV∗(st))\pi_\theta^*(y_t|s_t) = \frac{\exp\left( \frac{1}{\beta} Q^*(s_t, y_t) \right)}{\sum_{y_t'} \exp\left( \frac{1}{\beta} Q^*(s_t, y_t') \right)} = \frac{\exp\left( \frac{1}{\beta} Q^*(s_t, y_t) \right)}{\exp\left( \frac{1}{\beta} V^*(s_t) \right)}$

其中：

$Z(y_t|s_t)$ 是归一化常数（partition function）。
上述形式体现了 递归最优策略 的结构，类似于 Soft Q-learning 或 最大熵强化学习 中的策略更新。

${πθ∗(yt∣st)=exp⁡{1β(Q∗(st,yt)−V∗(st))}Q∗(st,yt)=r′(st,yt)+∑k=t+1T{Eyk∼πθ∗(yk∣sk){r′(sk,yk)}+βH(πθ∗(yk∣sk))}\left\{ \begin{aligned} \pi_\theta^*(y_t|s_t) &= \exp \left\{ \frac{1}{\beta} \left( Q^*(s_t, y_t) - V^*(s_t) \right) \right\} \\ Q^*(s_t, y_t) &= r'(s_t, y_t) + \sum_{k=t+1}^T \left\{ \mathbb{E}_{y_k \sim \pi_\theta^*(y_k|s_k)} \left\{ r'(s_k, y_k) \right\} + \beta H(\pi_\theta^*(y_k|s_k)) \right\} \end{aligned} \right.$

$⇒V∗(st)=βlog⁡{∑ytexp⁡{1βQ∗(st,yt)}}\Rightarrow V^*(s_t) = \beta \log \left\{ \sum_{y_t} \exp \left\{ \frac{1}{\beta} Q^*(s_t, y_t) \right\} \right\}$

$⇒Q∗−V∗=βlog⁡πθ∗\Rightarrow Q^* - V^* = \beta \log \pi_\theta^*$

📌 说明与解释：

$πθ∗(yt∣st)\pi_\theta^*(y_t|s_t)$ ：在状态 $s_t$ 下选择动作 $y_t$ 的最优策略（概率分布），服从 Boltzmann 分布。
- 这是最大熵强化学习中的经典形式：策略正比于 $exp⁡(Q−V)\exp(Q - V)$ 。
$Q^*(s_t, y_t)$ ：软 Q 值函数（soft Q-function），表示在状态 $s_t$ 采取动作 $y_t$ 后的期望累积回报（含熵项）。
- 包括即时奖励 $r'(s_t, y_t)$ 和未来期望回报（包含后续状态下的奖励和熵）。
$V^*(s_t)$ ：软价值函数（soft value function），表示在状态 $s_t$ 下的最大期望累积回报（考虑熵）：

$V∗(st)=max⁡πEπ[∑k=tTr′(sk,yk)+βH(π(yk∣sk))]V^*(s_t) = \max_{\pi} \mathbb{E}_{\pi} \left[ \sum_{k=t}^T r'(s_k, y_k) + \beta H(\pi(y_k|s_k)) \right]$
- 在最优策略下，有：
  
  $V∗(st)=βlog⁡∑ytexp⁡(1βQ∗(st,yt))V^*(s_t) = \beta \log \sum_{y_t} \exp\left( \frac{1}{\beta} Q^*(s_t, y_t) \right)$
  
  即对所有可能动作取 softmax 的 log-sum-exp 形式。
$Q^* - V^*$ ：这个差值恰好等于 $βlog⁡πθ∗\beta \log \pi_\theta^*$ ，即：

$Q∗(st,yt)−V∗(st)=βlog⁡πθ∗(yt∣st)Q^*(s_t, y_t) - V^*(s_t) = \beta \log \pi_\theta^*(y_t|s_t)$
- 这是最大熵 RL 中的一个重要恒等式，也称为 Soft Bellman 方程 的核心关系。

$Q^{*}$ 化简

$项展开=βEyt+1∼πθ∗(yt+1∣st+1){log⁡exp⁡(1βV∗(st+1))}=V∗(st+1)\begin{aligned} &= r'(s_t, y_t) + \beta H(\pi_\theta^*(y_{t+1}|s_{t+1})) + \mathbb{E}_{y_{t+1} \sim \pi_\theta^*(y_{t+1}|s_{t+1})} \left\{ r'(s_{t+1}, y_{t+1}) \right\} \\ &\quad + \sum_{k=t+2}^T \left\{ \mathbb{E}_{y_k \sim \pi_\theta^*(y_k|s_k)} \left\{ r'(s_k, y_k) \right\} + \beta H(\pi_\theta^*(y_k|s_k)) \right\} \\ &= r'(s_t, y_t) + \underbrace{\beta \mathbb{E}_{y_{t+1} \sim \pi_\theta^*(y_{t+1}|s_{t+1})} \left\{ \log \frac{\exp\left( \frac{1}{\beta} Q^*(s_{t+1}, y_{t+1}) \right)}{\pi_\theta^*(y_{t+1}|s_{t+1})} \right\}}_{\text{KL 项展开}} \\ &= \beta \mathbb{E}_{y_{t+1} \sim \pi_\theta^*(y_{t+1}|s_{t+1})} \left\{ \log \exp\left( \frac{1}{\beta} V^*(s_{t+1}) \right) \right\} = V^*(s_{t+1}) \end{aligned}$

$⇒Q∗(st,yt)=r′(st,yt)+V∗(st+1)\Rightarrow Q^*(s_t, y_t) = r'(s_t, y_t) + V^*(s_{t+1})$ $其中：Q∗(st,yt)={r(st,yt)+βlog⁡πref(yt∣st)+V∗(st+1),yt≠EOSr(st,yt)+βlog⁡πref(yt∣st),yt=EOS(*)\text{其中：} \quad Q^*(s_t, y_t) = \begin{cases} r(s_t, y_t) + \beta \log \pi_{\text{ref}}(y_t|s_t) + V^*(s_{t+1}), & y_t \neq \text{EOS} \\ r(s_t, y_t) + \beta \log \pi_{\text{ref}}(y_t|s_t), & y_t = \text{EOS} \end{cases} \tag{*}$

BT-Model:

$P(yw>yl∣x)=exp⁡(r(x,yw))exp⁡(r(x,yw))+exp⁡(r(x,yl))P(y_w > y_l \mid x) = \frac{\exp(r(x, y_w))}{\exp(r(x, y_w)) + \exp(r(x, y_l))}$
$\sigma(r(x, y_w) - r(x, y_l))$

Token-level BT

$KaTeX parse error: Can't use function '$' in math mode at position 125: …{t+1}) \right) $̲ $ = V^*(s_1) …$

Token-level DPO:

$⇒P(yw>yl∣x)=σ(∑t=1T1r(stw,ytw)−∑t=1T2r(stl,ytl)),s1w=s1l=x\Rightarrow P(y_w > y_l \mid x) = \sigma \left( \sum_{t=1}^{T_1} r(s_t^w, y_t^w) - \sum_{t=1}^{T_2} r(s_t^l, y_t^l) \right), \quad s_1^w = s_1^l = x$ $\sigma \left( \sum_{t=1}^{T_1} \beta \log \frac{\pi_\theta^*(y_t^w|s_t^w)}{\pi_{\text{ref}}(y_t^w|s_t^w)} - \sum_{t=1}^{T_2} \beta \log \frac{\pi_\theta^*(y_t^l|s_t^l)}{\pi_{\text{ref}}(y_t^l|s_t^l)} \right)$

📌 说明与解释：

Token-level DPO：指在生成序列时，对每个 token（即每一步）使用 Direct Preference Optimization (DPO) 进行建模。
$P(yw>yl∣x)P(y_w > y_l \mid x)$ ：在输入 $x$ 下，样本 $y_w$ （winner）被判断优于 $y_l$ （loser）的概率。
$r(s_t, y_t)$ ：奖励函数，通常由奖励模型给出。在最大熵框架下，可表示为： $r(st,yt)=βlog⁡πθ∗(yt∣st)πref(yt∣st)r(s_t, y_t) = \beta \log \frac{\pi_\theta^*(y_t|s_t)}{\pi_{\text{ref}}(y_t|s_t)}$
$πθ∗(yt∣st)\pi_\theta^*(y_t|s_t)$ ：最优策略，服从 Boltzmann 分布，由软 Q-learning 或最大熵 RL 推导得到。
$πref(yt∣st)\pi_{\text{ref}}(y_t|s_t)$ ：参考策略（如初始语言模型），用于正则化。
$σ(z)\sigma(z)$ ：sigmoid 函数，定义为： $σ(z)=11+e−z\sigma(z) = \frac{1}{1 + e^{-z}}$
$s_1^w = s_1^l = x$ ：两个序列从相同的输入 $x$ 开始。
最终形式：总奖励差可以分解为各 token 上的对数似然比之和，这正是 DPO 中常用的损失函数形式。

reward等价性

$\Rightarrow \beta \log \frac{\pi_\theta^*(y_t|s_t)}{\pi_{\text{ref}}(y_t|s_t)} = \underbrace{r(y_t, s_t)}_{\tilde{r}} + \underbrace{V^*(s_{t+1}) - V^*(s_t)}_{\Phi(s_{t+1}) - \Phi(s_t)} \quad \text{(reward shaping)}$ $equivalent.\Rightarrow \tilde{r} \text{ and } r \text{ are equivalent.}$ $reward\underbrace{\beta \log \frac{\pi_\theta^*(y_t|s_t)}{\pi_{\text{ref}}(y_t|s_t)}}_{\text{token-level reward}} \Rightarrow \text{can be generalized to step-wise reward}$

📌 说明与解释：

$βlog⁡πθ∗(yt∣st)πref(yt∣st)\beta \log \frac{\pi_\theta^*(y_t|s_t)}{\pi_{\text{ref}}(y_t|s_t)}$ ：这是在最大熵强化学习框架下定义的 token-level 奖励（即每一步生成 token 时的奖励）。
$r(y_t, s_t)$ ：原始奖励函数（如来自奖励模型），记作 $r~\tilde{r}$ 。
$V^*(s_t)$ ：软价值函数（soft value function），表示从状态 $s_t$ 出发的最大期望回报（考虑熵）。
$Φ(st)=V∗(st)\Phi(s_t) = V^*(s_t)$ ：势函数（potential function），用于 reward shaping（奖励塑形）。
奖励塑形（Reward Shaping）：
- 根据 Kaelbling’s Theorem，如果奖励被修改为： $r~(st,yt)=r(st,yt)+Φ(st+1)−Φ(st)\tilde{r}(s_t, y_t) = r(s_t, y_t) + \Phi(s_{t+1}) - \Phi(s_t)$ 那么最优策略保持不变。
- 在此处， $r~=βlog⁡πθ∗(yt∣st)πref(yt∣st)\tilde{r} = \beta \log \frac{\pi_\theta^*(y_t|s_t)}{\pi_{\text{ref}}(y_t|s_t)}$ 是一个等价于原始奖励 $r$ 的新奖励形式。
结论：
- $r~\tilde{r}$ 和 $r$ 在优化目标上是 等价的
- 因此，可以将这个 token-level 奖励推广到 step-wise reward（逐步奖励），用于训练语言模型。