当前位置: 首页 > article >正文

DDPM优化目标公式推导

DDPM优化目标公式推导

DDPM优化目标公式推导

DDPM(Denoising Diffusion Probabilistic Models)的优化目标推导基于变分下界(Variational Lower Bound, VLB)证据下界(Evidence Lower Bound, ELBO)。以下是详细推导过程:


1. 问题定义

  • 目标:学习一个模型 p θ ( x 0 ) p_\theta(\mathbf{x}_0) pθ(x0) 逼近真实数据分布 q ( x 0 ) q(\mathbf{x}_0) q(x0)
  • 前向过程(扩散过程)
    固定方差序列 β 1 , … , β T \beta_1, \dots, \beta_T β1,,βT,定义马尔可夫链:
    q ( x 1 : T ∣ x 0 ) = ∏ t = 1 T q ( x t ∣ x t − 1 ) , q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) q(\mathbf{x}_{1:T} | \mathbf{x}_0) = \prod_{t=1}^T q(\mathbf{x}_t | \mathbf{x}_{t-1}), \quad q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1 - \beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I}) q(x1:Tx0)=t=1Tq(xtxt1),q(xtxt1)=N(xt;1βt xt1,βtI)
  • 反向过程(生成过程)
    学习参数化的马尔可夫链:
    p θ ( x 0 : T ) = p ( x T ) ∏ t = 1 T p θ ( x t − 1 ∣ x t ) , p θ ( x t − 1 ∣ x t ) = N ( x t − 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) ) p_\theta(\mathbf{x}_{0:T}) = p(\mathbf{x}_T) \prod_{t=1}^T p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t), \quad p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t) = \mathcal{N}(\mathbf{x}_{t-1}; \boldsymbol{\mu}_\theta(\mathbf{x}_t, t), \boldsymbol{\Sigma}_\theta(\mathbf{x}_t, t)) pθ(x0:T)=p(xT)t=1Tpθ(xt1xt),pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t))

2. 优化目标:最大化对数似然

目标是最大化 log ⁡ p θ ( x 0 ) \log p_\theta(\mathbf{x}_0) logpθ(x0),但直接计算困难,转而最大化其变分下界:
log ⁡ p θ ( x 0 ) ≥ E q ( x 1 : T ∣ x 0 ) [ log ⁡ p θ ( x 0 : T ) q ( x 1 : T ∣ x 0 ) ] ≜ VLB \log p_\theta(\mathbf{x}_0) \geq \mathbb{E}_{q(\mathbf{x}_{1:T} | \mathbf{x}_0)} \left[ \log \frac{p_\theta(\mathbf{x}_{0:T})}{q(\mathbf{x}_{1:T} | \mathbf{x}_0)} \right] \triangleq \text{VLB} logpθ(x0)Eq(x1:Tx0)[logq(x1:Tx0)pθ(x0:T)]VLB


3. 变分下界的分解

将 VLB 展开并分解:
VLB = E q ( x 1 : T ∣ x 0 ) [ log ⁡ p θ ( x 0 : T ) q ( x 1 : T ∣ x 0 ) ] = E q [ log ⁡ p θ ( x 0 : T ) q ( x 1 : T ∣ x 0 ) ] = E q [ log ⁡ p θ ( x T ) + ∑ t = 1 T log ⁡ p θ ( x t − 1 ∣ x t ) q ( x t ∣ x t − 1 ) ] \begin{align*} \text{VLB} &= \mathbb{E}_{q(\mathbf{x}_{1:T} | \mathbf{x}_0)} \left[ \log \frac{p_\theta(\mathbf{x}_{0:T})}{q(\mathbf{x}_{1:T} | \mathbf{x}_0)} \right] \\ &= \mathbb{E}_{q} \left[ \log \frac{p_\theta(\mathbf{x}_{0:T})}{q(\mathbf{x}_{1:T} | \mathbf{x}_0)} \right] \\ &= \mathbb{E}_{q} \left[ \log p_\theta(\mathbf{x}_T) + \sum_{t=1}^T \log \frac{p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t)}{q(\mathbf{x}_t | \mathbf{x}_{t-1})} \right] \\ \end{align*} VLB=Eq(x1:Tx0)[logq(x1:Tx0)pθ(x0:T)]=Eq[logq(x1:Tx0)pθ(x0:T)]=Eq[logpθ(xT)+t=1Tlogq(xtxt1)pθ(xt1xt)]
利用马尔可夫性质,改写为:
VLB = E q [ log ⁡ p θ ( x 0 ∣ x 1 ) + ∑ t = 2 T log ⁡ p θ ( x t − 1 ∣ x t ) q ( x t − 1 ∣ x t , x 0 ) − ∑ t = 1 T log ⁡ q ( x t ∣ x t − 1 ) q ( x t − 1 ∣ x 0 ) ] + C \text{VLB} = \mathbb{E}_{q} \left[ \log p_\theta(\mathbf{x}_0 | \mathbf{x}_1) + \sum_{t=2}^T \log \frac{p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t)}{q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0)} - \sum_{t=1}^T \log \frac{q(\mathbf{x}_t | \mathbf{x}_{t-1})}{q(\mathbf{x}_{t-1} | \mathbf{x}_0)} \right] + C VLB=Eq[logpθ(x0x1)+t=2Tlogq(xt1xt,x0)pθ(xt1xt)t=1Tlogq(xt1x0)q(xtxt1)]+C
最终简化为:
VLB = E q [ log ⁡ p θ ( x 0 ∣ x 1 ) ] − ∑ t = 2 T E q [ D KL ( q ( x t − 1 ∣ x t , x 0 ) ∥ p θ ( x t − 1 ∣ x t ) ) ] − D KL ( q ( x T ∣ x 0 ) ∥ p ( x T ) ) \boxed{\text{VLB} = \mathbb{E}_{q} \left[ \log p_\theta(\mathbf{x}_0 | \mathbf{x}_1) \right] - \sum_{t=2}^T \mathbb{E}_{q} \left[ D_\text{KL} \left( q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) \parallel p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t) \right) \right] - D_\text{KL} \left( q(\mathbf{x}_T | \mathbf{x}_0) \parallel p(\mathbf{x}_T) \right)} VLB=Eq[logpθ(x0x1)]t=2TEq[DKL(q(xt1xt,x0)pθ(xt1xt))]DKL(q(xTx0)p(xT))

详细过程请参考DDPM优化目标公式推导(详细)


4. 关键步骤:简化 KL 散度项

(a) 后验分布 q ( x t − 1 ∣ x t , x 0 ) q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) q(xt1xt,x0) 的闭式解

由贝叶斯公式:
q ( x t − 1 ∣ x t , x 0 ) = N ( x t − 1 ; μ ~ t ( x t , x 0 ) , β ~ t I ) q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_{t-1}; \tilde{\boldsymbol{\mu}}_t(\mathbf{x}_t, \mathbf{x}_0), \tilde{\beta}_t \mathbf{I}) q(xt1xt,x0)=N(xt1;μ~t(xt,x0),β~tI)
其中:
μ ~ t ( x t , x 0 ) = α ˉ t − 1 β t 1 − α ˉ t x 0 + α t ( 1 − α ˉ t − 1 ) 1 − α ˉ t x t , β ~ t = 1 − α ˉ t − 1 1 − α ˉ t β t \tilde{\boldsymbol{\mu}}_t(\mathbf{x}_t, \mathbf{x}_0) = \frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1 - \bar{\alpha}_t} \mathbf{x}_0 + \frac{\sqrt{\alpha_t} (1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t} \mathbf{x}_t, \quad \tilde{\beta}_t = \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \beta_t μ~t(xt,x0)=1αˉtαˉt1 βtx0+1αˉtαt (1αˉt1)xt,β~t=1αˉt1αˉt1βt
(记 α t = 1 − β t \alpha_t = 1 - \beta_t αt=1βt, α ˉ t = ∏ i = 1 t α i \bar{\alpha}_t = \prod_{i=1}^t \alpha_i αˉt=i=1tαi

(b) 参数化均值 μ θ ( x t , t ) \boldsymbol{\mu}_\theta(\mathbf{x}_t, t) μθ(xt,t)

p θ ( x t − 1 ∣ x t ) = N ( x t − 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) ) p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t) = \mathcal{N}(\mathbf{x}_{t-1}; \boldsymbol{\mu}_\theta(\mathbf{x}_t, t), \boldsymbol{\Sigma}_\theta(\mathbf{x}_t, t)) pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t))
为匹配后验分布,选择:
μ θ ( x t , t ) = μ ~ t ( x t , x t − 1 − α ˉ t ϵ θ α ˉ t ) \boldsymbol{\mu}_\theta(\mathbf{x}_t, t) = \tilde{\boldsymbol{\mu}}_t \left( \mathbf{x}_t, \frac{\mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t} \boldsymbol{\epsilon}_\theta}{\sqrt{\bar{\alpha}_t}} \right) μθ(xt,t)=μ~t(xt,αˉt xt1αˉt ϵθ)
代入闭式解得:
μ θ = 1 α t ( x t − β t 1 − α ˉ t ϵ θ ( x t , t ) ) \boldsymbol{\mu}_\theta = \frac{1}{\sqrt{\alpha_t}} \left( \mathbf{x}_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}} \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \right) μθ=αt 1(xt1αˉt βtϵθ(xt,t))

© KL 散度的闭式解

两个高斯分布的 KL 散度为:
D KL ( N ( μ 1 , Σ 1 ) ∥ N ( μ 2 , Σ 2 ) ) = 1 2 [ log ⁡ ∣ Σ 2 ∣ ∣ Σ 1 ∣ − d + tr ( Σ 2 − 1 Σ 1 ) + ( μ 2 − μ 1 ) ⊤ Σ 2 − 1 ( μ 2 − μ 1 ) ] D_\text{KL}(\mathcal{N}(\boldsymbol{\mu}_1, \boldsymbol{\Sigma}_1) \parallel \mathcal{N}(\boldsymbol{\mu}_2, \boldsymbol{\Sigma}_2)) = \frac{1}{2} \left[ \log \frac{|\boldsymbol{\Sigma}_2|}{|\boldsymbol{\Sigma}_1|} - d + \text{tr}(\boldsymbol{\Sigma}_2^{-1} \boldsymbol{\Sigma}_1) + (\boldsymbol{\mu}_2 - \boldsymbol{\mu}_1)^\top \boldsymbol{\Sigma}_2^{-1} (\boldsymbol{\mu}_2 - \boldsymbol{\mu}_1) \right] DKL(N(μ1,Σ1)N(μ2,Σ2))=21[logΣ1Σ2d+tr(Σ21Σ1)+(μ2μ1)Σ21(μ2μ1)]
假设 Σ θ = σ t 2 I \boldsymbol{\Sigma}_\theta = \sigma_t^2 \mathbf{I} Σθ=σt2I(常取 σ t 2 = β t \sigma_t^2 = \beta_t σt2=βt β ~ t \tilde{\beta}_t β~t),则:
D KL = 1 2 σ t 2 ∥ μ ~ t − μ θ ∥ 2 + C D_\text{KL} = \frac{1}{2\sigma_t^2} \| \tilde{\boldsymbol{\mu}}_t - \boldsymbol{\mu}_\theta \|^2 + C DKL=2σt21μ~tμθ2+C
代入 μ θ \boldsymbol{\mu}_\theta μθ μ ~ t \tilde{\boldsymbol{\mu}}_t μ~t 的表达式:
μ ~ t − μ θ = β t α t 1 − α ˉ t ( ϵ − ϵ θ ( x t , t ) ) \tilde{\boldsymbol{\mu}}_t - \boldsymbol{\mu}_\theta = \frac{\beta_t}{\sqrt{\alpha_t} \sqrt{1 - \bar{\alpha}_t}} \left( \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \right) μ~tμθ=αt 1αˉt βt(ϵϵθ(xt,t))
其中 x t = α ˉ t x 0 + 1 − α ˉ t ϵ \mathbf{x}_t = \sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \boldsymbol{\epsilon} xt=αˉt x0+1αˉt ϵ。最终:
D KL ∝ E x 0 , ϵ [ ∥ ϵ − ϵ θ ( x t , t ) ∥ 2 ] \boxed{D_\text{KL} \propto \mathbb{E}_{\mathbf{x}_0, \boldsymbol{\epsilon}} \left[ \| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \|^2 \right]} DKLEx0,ϵ[ϵϵθ(xt,t)2]


5. 最终优化目标

忽略常数项和权重,DDPM 的简化目标为:
L simple ( θ ) = E t , x 0 , ϵ [ ∥ ϵ − ϵ θ ( x t , t ) ∥ 2 ] \mathcal{L}_\text{simple}(\theta) = \mathbb{E}_{t, \mathbf{x}_0, \boldsymbol{\epsilon}} \left[ \| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \|^2 \right] Lsimple(θ)=Et,x0,ϵ[ϵϵθ(xt,t)2]
其中:

  • t ∼ Uniform ( 1 , T ) t \sim \text{Uniform}(1, T) tUniform(1,T)
  • x 0 ∼ q ( x 0 ) \mathbf{x}_0 \sim q(\mathbf{x}_0) x0q(x0)
  • ϵ ∼ N ( 0 , I ) \boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) ϵN(0,I)
  • x t = α ˉ t x 0 + 1 − α ˉ t ϵ \mathbf{x}_t = \sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1 - \bar{\alpha}_t} \boldsymbol{\epsilon} xt=αˉt x0+1αˉt ϵ

关键结论

DDPM 通过训练一个网络 ϵ θ \boldsymbol{\epsilon}_\theta ϵθ 预测添加到样本中的噪声,最小化噪声预测的均方误差,从而实现数据生成。此目标等价于对数据分布的梯度(分数)进行匹配,与基于分数的生成模型有深刻联系。

补充内容(优化思路)

变分下界(VLB)最终简化公式的逐项解析与优化思路

最终VLB公式为:
VLB = E q ( x 1 ∣ x 0 ) [ log ⁡ p θ ( x 0 ∣ x 1 ) ] − ∑ t = 2 T E q ( x t ∣ x 0 ) [ D KL ( q ( x t − 1 ∣ x t , x 0 ) ∥ p θ ( x t − 1 ∣ x t ) ) ] − D KL ( q ( x T ∣ x 0 ) ∥ p ( x T ) ) \begin{align*} \text{VLB} = & \;\mathbb{E}_{q(\mathbf{x}_1 | \mathbf{x}_0)} \Big[ \log p_\theta(\mathbf{x}_0 | \mathbf{x}_1) \Big] \\ & - \sum_{t=2}^T \mathbb{E}_{q(\mathbf{x}_t | \mathbf{x}_0)} \left[ D_{\text{KL}} \Big( q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) \parallel p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t) \Big) \right] \\ & - D_{\text{KL}} \Big( q(\mathbf{x}_T | \mathbf{x}_0) \parallel p(\mathbf{x}_T) \Big) \end{align*} VLB=Eq(x1x0)[logpθ(x0x1)]t=2TEq(xtx0)[DKL(q(xt1xt,x0)pθ(xt1xt))]DKL(q(xTx0)p(xT))


1. 重构项 (Reconstruction Term)

E q ( x 1 ∣ x 0 ) [ log ⁡ p θ ( x 0 ∣ x 1 ) ] \mathbb{E}_{q(\mathbf{x}_1 | \mathbf{x}_0)} \Big[ \log p_\theta(\mathbf{x}_0 | \mathbf{x}_1) \Big] Eq(x1x0)[logpθ(x0x1)]

  • 含义
    衡量从第一步带噪样本 x 1 \mathbf{x}_1 x1 重建原始数据 x 0 \mathbf{x}_0 x0 的质量。

    • q ( x 1 ∣ x 0 ) q(\mathbf{x}_1 | \mathbf{x}_0) q(x1x0):前向过程第一步( x 0 → x 1 \mathbf{x}_0 \to \mathbf{x}_1 x0x1)
    • p θ ( x 0 ∣ x 1 ) p_\theta(\mathbf{x}_0 | \mathbf{x}_1) pθ(x0x1):反向生成过程的第一步( x 1 → x 0 \mathbf{x}_1 \to \mathbf{x}_0 x1x0)
  • 物理意义
    评估模型在轻度噪声水平 t = 1 t=1 t=1)下的数据重建能力。
    对于图像数据,此项常建模为离散分布(如像素级交叉熵)或连续分布(如高斯似然)。

  • 优化作用
    确保生成过程最终输出高质量样本。实际训练中此项影响较小(因 t = 1 t=1 t=1 噪声水平低)。


2. 去噪匹配项 (Denoising Matching Term)

− ∑ t = 2 T E q ( x t ∣ x 0 ) [ D KL ( q ( x t − 1 ∣ x t , x 0 ) ∥ p θ ( x t − 1 ∣ x t ) ) ] - \sum_{t=2}^T \mathbb{E}_{q(\mathbf{x}_t | \mathbf{x}_0)} \left[ D_{\text{KL}} \Big( q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) \parallel p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t) \Big) \right] t=2TEq(xtx0)[DKL(q(xt1xt,x0)pθ(xt1xt))]

  • 含义
    核心优化项!要求反向生成过程 p θ p_\theta pθ 匹配前向过程的后验分布 q q q

    • q ( x t − 1 ∣ x t , x 0 ) q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0) q(xt1xt,x0):已知 x 0 \mathbf{x}_0 x0 x t \mathbf{x}_t xt x t − 1 \mathbf{x}_{t-1} xt1真实后验分布(可解析计算的高斯分布)
    • p θ ( x t − 1 ∣ x t ) p_\theta(\mathbf{x}_{t-1} | \mathbf{x}_t) pθ(xt1xt):参数化的反向生成模型(神经网络预测)
  • 物理意义
    在每一步 t t t,强制生成模型从 x t \mathbf{x}_t xt 预测 x t − 1 \mathbf{x}_{t-1} xt1 的分布接近理论最优去噪分布。

  • 关键推导结论
    该KL散度可简化为 噪声预测的均方误差
    D KL ∝ ∥ ϵ − ϵ θ ( x t , t ) ∥ 2 D_{\text{KL}} \propto \| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta (\mathbf{x}_t, t) \|^2 DKLϵϵθ(xt,t)2
    其中 x t = α ˉ t x 0 + 1 − α ˉ t ϵ \mathbf{x}_t = \sqrt{\bar{\alpha}_t} \mathbf{x}_0 + \sqrt{1-\bar{\alpha}_t}\boldsymbol{\epsilon} xt=αˉt x0+1αˉt ϵ ϵ θ \boldsymbol{\epsilon}_\theta ϵθ 是预测噪声的神经网络。

  • 优化作用
    主导整个训练过程(占损失函数权重的99%以上)。
    将复杂的分布匹配问题转化为简单的监督学习:训练网络 ϵ θ \boldsymbol{\epsilon}_\theta ϵθ 预测加入的噪声 ϵ \boldsymbol{\epsilon} ϵ


3. 先验匹配项 (Prior Matching Term)

− D KL ( q ( x T ∣ x 0 ) ∥ p ( x T ) ) - D_{\text{KL}} \Big( q(\mathbf{x}_T | \mathbf{x}_0) \parallel p(\mathbf{x}_T) \Big) DKL(q(xTx0)p(xT))

  • 含义
    衡量前向过程最终分布 q ( x T ∣ x 0 ) q(\mathbf{x}_T | \mathbf{x}_0) q(xTx0) 与预设先验 p ( x T ) p(\mathbf{x}_T) p(xT) 的相似度。

    • q ( x T ∣ x 0 ) = N ( x T ; α ˉ T x 0 , ( 1 − α ˉ T ) I ) q(\mathbf{x}_T | \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_T; \sqrt{\bar{\alpha}_T} \mathbf{x}_0, (1-\bar{\alpha}_T)\mathbf{I}) q(xTx0)=N(xT;αˉT x0,(1αˉT)I)
    • p ( x T ) = N ( 0 , I ) p(\mathbf{x}_T) = \mathcal{N}(\mathbf{0}, \mathbf{I}) p(xT)=N(0,I)(标准高斯分布)
  • 物理意义
    确保前向过程结束时,噪声分布接近标准高斯分布(生成过程的起点)。

  • 优化作用

    • α ˉ T ≈ 0 \bar{\alpha}_T \approx 0 αˉT0 时(DDPM通常满足),此项趋近于0(因 q ( x T ∣ x 0 ) ≈ N ( 0 , I ) q(\mathbf{x}_T|\mathbf{x}_0) \approx \mathcal{N}(0, \mathbf{I}) q(xTx0)N(0,I))。
    • 实际训练中常被忽略,因其不依赖可训练参数 θ \theta θ 且值极小。

整体优化思路分析

1. 核心优化目标

最大化 log ⁡ p θ ( x 0 ) \log p_\theta(\mathbf{x}_0) logpθ(x0) 的下界(VLB),等价于最小化:
L VLB = − VLB = L 0 + ∑ t = 2 T L t + L T \mathcal{L}_{\text{VLB}} = -\text{VLB} = \mathcal{L}_0 + \sum_{t=2}^T \mathcal{L}_{t} + \mathcal{L}_T LVLB=VLB=L0+t=2TLt+LT
其中:

  • L 0 = − E [ log ⁡ p θ ( x 0 ∣ x 1 ) ] \mathcal{L}_0 = -\mathbb{E}[\log p_\theta(\mathbf{x}_0|\mathbf{x}_1)] L0=E[logpθ(x0x1)](重构损失)
  • L t = E [ D KL ( q ∥ p θ ) ] \mathcal{L}_{t} = \mathbb{E}[D_{\text{KL}}(q \parallel p_\theta)] Lt=E[DKL(qpθ)](去噪匹配损失)
  • L T = D KL ( q ( x T ∣ x 0 ) ∥ p ( x T ) ) \mathcal{L}_T = D_{\text{KL}}(q(\mathbf{x}_T|\mathbf{x}_0) \parallel p(\mathbf{x}_T)) LT=DKL(q(xTx0)p(xT))(先验匹配损失)
2. 实际训练简化
  1. 忽略 L T \mathcal{L}_T LT
    α ˉ T ≈ 0 \bar{\alpha}_T \approx 0 αˉT0,此项可忽略(接近0)。

  2. 简化 L 0 \mathcal{L}_0 L0
    用均方误差替代离散分布建模(如对于图像数据)。

  3. 主导项 L t \mathcal{L}_{t} Lt 的转化
    通过数学推导,将KL散度转化为噪声预测损失:
    L t ∝ E x 0 , ϵ , t ∥ ϵ − ϵ θ ( x t , t ) ∥ 2 \mathcal{L}_{t} \propto \mathbb{E}_{\mathbf{x}_0, \boldsymbol{\epsilon}, t} \| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \|^2 LtEx0,ϵ,tϵϵθ(xt,t)2

  4. 均匀时间步采样
    为稳定训练,对 t ∼ Uniform { 1 , . . . , T } t \sim \text{Uniform}\{1,...,T\} tUniform{1,...,T} 采样并去权重:
    L simple = E t , x 0 , ϵ ∥ ϵ − ϵ θ ( x t , t ) ∥ 2 \mathcal{L}_{\text{simple}} = \mathbb{E}_{t,\mathbf{x}_0,\boldsymbol{\epsilon}} \| \boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t) \|^2 Lsimple=Et,x0,ϵϵϵθ(xt,t)2

3. 物理意义图解
生成过程(反向): x_T ≈ N(0,I) → [pθ(x_{T-1}|x_T)] → ... → [pθ(x_0|x_1)] → x_0↑ 匹配          ↑ 匹配          ↑ 匹配
前向过程      : x_0 → [q(x1|x0)] → x_1 → ... → [q(x_T|x_{T-1})] → x_T重构项↑      去噪匹配项↑           先验匹配项↑
4. 为什么此优化有效?
  • 解耦复杂性
    将高维数据分布匹配问题分解为 T T T 个简单的高斯分布匹配任务。
  • 渐进式优化
    通过时间步 t t t 控制噪声水平,从易(高噪声)到难(低噪声)逐步训练。
  • 闭式解指导
    利用前向过程后验 q ( x t − 1 ∣ x t , x 0 ) q(\mathbf{x}_{t-1}|\mathbf{x}_t,\mathbf{x}_0) q(xt1xt,x0) 的解析解提供训练目标。
  • 隐式分数匹配
    噪声预测等价于学习数据分布的梯度场( ϵ θ ∝ − ∇ x t log ⁡ p ( x t ) \boldsymbol{\epsilon}_\theta \propto -\nabla_{\mathbf{x}_t} \log p(\mathbf{x}_t) ϵθxtlogp(xt))。

总结

含义优化作用实际处理
重构项 x 1 \mathbf{x}_1 x1 重建 x 0 \mathbf{x}_0 x0保证最终输出质量保留或用MSE替代
去噪匹配项匹配反向生成与前向后验分布核心训练目标(>99%权重)转化为噪声预测损失
先验匹配项对齐 x T \mathbf{x}_T xT 与标准高斯确保生成起点正确忽略(值≈0)

DDPM的创新优化思路
将生成建模问题转化为序列化的噪声预测任务,通过:

  1. 利用前向过程后验的闭式解提供训练目标
  2. 将KL散度转化为均方误差损失
  3. 均匀采样时间步简化训练
    使扩散模型可稳定训练于高维数据(如图像、音频),成为生成式AI的核心框架。
http://www.lryc.cn/news/2404607.html

相关文章:

  • CentOS 7如何编译安装升级gcc至7.5版本?
  • 为什么React列表项需要key?(React key)(稳定的唯一标识key有助于React虚拟DOM优化重绘大型列表)
  • Playwright自动化测试全栈指南:从基础到企业级实践(2025终极版)
  • 飞牛云一键设置动态域名+ipv6内网直通访问内网的ssh服务-家庭云计算专家
  • 虚实共生时代的情感重构:AI 恋爱陪伴的崛起、困局与明日图景
  • 嵌入式面试高频(5)!!!C++语言(嵌入式八股文,嵌入式面经)
  • C++动态规划-线性DP
  • Java高级 | 【实验七】Springboot 过滤器和拦截器
  • es地理信息索引的类型以及geo_point‌和geo_hash的关系
  • 深入理解 Spring IOC:从概念到实践
  • Vue解决开发环境 Ajax 跨域问题
  • 行为设计模式之Command (命令)
  • 若依添加添加监听容器配置(删除键,键过期)
  • NeRF 技术深度解析:原理、局限与前沿应用探索(AI+3D 产品经理笔记 S2E04)
  • ROS2,工作空间中新建了一个python脚本,需要之后作为节点运行。告诉我步骤?
  • 【AI智能体】Spring AI MCP 从使用到操作实战详解
  • Vue:Ajax
  • 法律大语言模型(Legal LLM)技术架构
  • 理解 RAG_HYBRID_BM25_WEIGHT:打造更智能的混合检索增强生成系统
  • Hive终极性能优化指南:从原理到实战
  • 第六十二节:深度学习-加载 TensorFlow/PyTorch/Caffe 模型
  • MobaXterm配置跳转登录堡垒机
  • 零基础在实践中学习网络安全-皮卡丘靶场(第八期-Unsafe Filedownload模块)
  • 测试 FreeSWITCH 的 mod_loopback
  • 【C++快读快写】
  • 测试(面经 八股)
  • [面试精选] 0104. 二叉树的最大深度
  • 图上合成:用于大型语言模型持续预训练的知识合成数据生成
  • MYSQL(二) ---MySQL 8.4 新特性与变量变更
  • 数学复习笔记 27