当前位置：首页 > news >正文

Diffusion 公式推导 2

news 2025/7/28 4:17:13

Diffusion 公式推导中对 DDPM 进行了推导，本文接着对 DDIM 进行推导。

六. 模型改进

从扩散模型的推理过程不难看出，DDPM 有一个致命缺点 —— 推理速度过慢，因为逆扩散是从 $x_{T}$ 到 $x_{0}$ 的完整过程，无法跳过中间的迭代过程。为了加快推理过程，DDIM (Denoising Diffusion Implicit Models) 对 DDPM 进行了改进，采用的是一个非马尔科夫过程，使得生成过程可以在更少的时间步内完成。

从原理角度来看 ¹，DDIM 假设 $(x_{t-1} \mid x_0, x_t)$ 是一个高斯分布，对其进行待定系数：
$(x_{t-1} \mid x_0, x_t) \sim \mathcal{N}\left(kx_0+mx_t, \sigma^2\right) \tag{21}$

因此有：
$x_{t-1} = kx_0+mx_t + \sigma \epsilon \quad \text{ 其中 } \epsilon \sim \mathcal{N}(0, \bold I) \tag{22}$

将（7）式代入，得到：
$\begin{aligned} x_{t-1} & = kx_0+mx_t + \sigma \epsilon\\ & = kx_0+m(\sqrt{\overline{\alpha}_t} x_{0} + \sqrt{1-\overline{\alpha}_t} \overline \epsilon_{0}) + \sigma \epsilon\\ & = (k+m\sqrt{\overline{\alpha}_t})x_0 + m\sqrt{1-\overline{\alpha}_t} \overline \epsilon_{0} + \sigma \epsilon\\ & = (k+m\sqrt{\overline{\alpha}_t})x_0 + \epsilon' \end{aligned} \tag{23}$

其中， $m\sqrt{1-\overline{\alpha}_t} \overline \epsilon_{0} + \sigma \epsilon$ 可以合并成 $\epsilon'$ 是因为高斯分布的可加性，因此有 $\epsilon' \sim \mathcal{N}(0, m^2(1-\overline{\alpha}_t) + \sigma^2)$ 。

将（7）式变换成 $x_{t-1}$ 的形式，然后和（23）式联立：

$\begin{aligned} x_{t-1} &= \sqrt{\overline{\alpha}_{t-1}} x_{0} + \sqrt{1-\overline{\alpha}_{t-1}} \overline \epsilon_{0}\\ x_{t-1} &= (k+m\sqrt{\overline{\alpha}_t})x_0 + \epsilon' \end{aligned}$

对应项系数相等得到：
$\begin{aligned} \sqrt{\overline{\alpha}_{t-1}} &= k+m\sqrt{\overline{\alpha}_t}\\ 1-\overline{\alpha}_{t-1} &= m^2(1-\overline{\alpha}_t) + \sigma^2 \end{aligned} \tag{24}$

因此有：
$\begin{aligned} m &= \sqrt{\frac{1-\overline{\alpha}_{t-1} - \sigma^2}{1-\overline{\alpha}_t}}\\ k &= \sqrt{\overline{\alpha}_{t-1}} - \sqrt{\frac{1-\overline{\alpha}_{t-1} - \sigma^2}{1-\overline{\alpha}_t}} \sqrt{\overline{\alpha}_t}\\ \end{aligned} \tag{25}$

和 DDPM 逆扩散过程一样，代入（7）式将 $x_0$ 替换成 $x_t$ 表示，再将（25）式代入（22）式，得到：
$\begin{aligned} x_{t-1} &= kx_0+mx_t + \sigma \epsilon\\ &= (\sqrt{\overline{\alpha}_{t-1}} - \sqrt{\frac{1-\overline{\alpha}_{t-1} - \sigma^2}{1-\overline{\alpha}_t}} \sqrt{\overline{\alpha}_t})(\frac{x_t - \sqrt{1-\overline{\alpha}_t} \overline \epsilon_{0}}{\sqrt{\overline{\alpha}_t}}) + \sqrt{\frac{1-\overline{\alpha}_{t-1} - \sigma^2}{1-\overline{\alpha}_t}}x_t + \sigma \epsilon\\ &= \sqrt{\frac{\overline{\alpha}_{t-1}}{\overline{\alpha}_t}}x_t + (\sqrt{1-\overline{\alpha}_{t-1} - \sigma^2}-\sqrt{\frac{\overline{\alpha}_{t-1}(1-\overline{\alpha}_t)}{\overline{\alpha}_t}}) \overline \epsilon_{0} + \sigma \epsilon\\ &= \frac{1}{\sqrt{\alpha_t}}x_t + \left(\sqrt{1-\overline{\alpha}_{t-1} - \sigma^2}-\sqrt{\frac{1-\overline{\alpha}_t}{\alpha_t}}\right) \overline \epsilon_{0} + \sigma \epsilon\\ \end{aligned} \tag{26}$

$\overline \epsilon_{0}$ 通过 U-Net 进行预测，其他都是已知参数。网上的教程都是推导到（26）式处就说不是马尔科夫假设，所以不需要严格遵守 $x_{t} \rightarrow x_{t-1}$ ² ³。也有从相隔多个迭代步数采样向前推的，参见一个视频看懂DDIM凭什么加速采样|扩散模型相关。

$\$

总之，DDIM 推理时可以隔多步进行采样，通过一个确定性映射直接将噪声转换为数据，避免了 DDPM 中的随机性，在减少生成时间步的同时，保持生成图像的高质量。推理过程中的确定性映射表示如下：
$\mathbf{x}_{\tau_{i-1}} = \sqrt{\bar{\alpha}_{\tau_{i-1}}} \left( \frac{\mathbf{x}_{\tau_i} - \sqrt{1 - \bar{\alpha}_{\tau_i}} \epsilon_\theta(\mathbf{x}_{\tau_i}, \tau_i)}{\sqrt{\bar{\alpha}_{\tau_i}}} \right) + \sqrt{1 - \bar{\alpha}_{\tau_{i-1}} - \sigma_{\tau_i}^2} \epsilon_\theta(\mathbf{x}_{\tau_i}, \tau_i)$