当前位置：首页 > news >正文

扩散模型(二)——DDIM学习笔记-大白话推导

news 2025/8/14 8:28:29

扩散模型系列：
（1）扩散模型(一)——DDPM推导笔记-大白话推导
（2）扩散模型(二)——DDIM学习笔记-大白话推导
请提前关注，后续待更新，谢谢…

写在前面：
（1）建议看这篇论文之前，可先看我写的前一篇论文：
扩散模型(一)——DDPM推导笔记-大白话推导

主要学习和参考了以下文章：
（1）一文带你看懂DDPM和DDIM
（2）关于 DDIM 采样算法的推导

0. DDIM的创新点

DDPM有一个很大的缺点就是其本身是一个马尔科夫链的过程，推理速度太慢，如果前向加噪过程是1000步，那么去噪过程就需要使用Unet生成噪声，然后去噪，这样进行1000步。这是一个及其缓慢的过程，DDIM原论文中举了一个生动的例子：

For example, it takes around 20 hours to sample 50k images of size 32 x 32 from a DDPM, but less than a minute to do so from a GAN on a Nvidia 2080 Ti GPU.

基于DDPM，DDIM主要有两项改进：

（1）对于一个已经训练好的DDPM，只需要对采样公式做简单的修改，模型就能在去噪时「跳步骤」，在一步去噪迭代中直接预测若干次去噪后的结果。比如说，假设模型从时刻T=100开始去噪，新的模型可以在每步去噪迭代中预测10次去噪操作后的结果，也就是逐步预测时刻t=90,80,…,0的结果。这样，DDPM的采样速度就被加速了10倍。

（2）DDIM论文推广了DDPM的数学模型，打破了马尔科夫链的过程，从更高的视角定义了DDPM的反向过程（去噪过程）。在这个新数学模型下，我们可以自定义模型的噪声强度，让同一个训练好的DDPM有不同的采样效果。

1. 公式推导

DDPM的推导过程可以看《DDPM推导笔记》，这里假设 $P(x_{t-1}|x_t, x_0)$ 满足如下正态分布，即：
$P(x_{t-1}|x_t, x_0) \sim N(kx_0+mx_t, \sigma^2) \\ 即:x_{t-1} = kx_o+mx_t + \sigma \epsilon \tag{1} \\ 其中有： \epsilon \sim N(0, 1)$
又因为前向的加噪过程满足：
$x_t = \sqrt{\bar{a_t}} x_0 + \sqrt{1 - \bar{a_t}} \epsilon \\ 其中\epsilon \sim N(0,1) \tag{2}$
合并(1)(2)上面两式，有：
$x_{t-1} = kx_0 + m[\sqrt{\bar{a}_t}x_0 + \sqrt{1-\bar{a}_t} \epsilon] + \sigma \epsilon \tag{3}$
再次合并有:
$x_{t-1} = (k+m\sqrt{\bar{a}_t}) x_0 + \epsilon' \\ 其中： \epsilon’ \sim M(0, m^2(1-\bar{a}_t) + \sigma^2) \tag{4}$
从DDPM中可以可知：
$x_{t-1} = \sqrt{\bar{a}_{t-1}} x_0 + \sqrt{1-\bar{a}_{t-1}} \epsilon \tag{5}$
通过式(4)(5)的 $x_{t-1}$ 服从的概率分布可知：
$m\sqrt{\bar{a}_t} = \sqrt{\bar{a}_{t-1}} \\ m^2(1-\bar{a}_t) + \sigma^2 = 1-\bar{a}_{t-1} \tag{6}$
由式（6）两个式子可解出：

将m,k带入到 $P(x_{t-1}|x_t, x_0)$ 中，可得：

在这里插入图片描述

依旧可以使用 $x_t, x_0$ 的关系式把 $x_0$ 去掉：
$x_t = \sqrt{\bar{a_t}} x_0 + \sqrt{1 - \bar{a_t}} \epsilon \\ 这里为了防止\epsilon和后面的\epsilon搞混，这里记为\epsilon_{t},则上式变为：\\ x_t = \sqrt{\bar{a_t}} x_0 + \sqrt{1 - \bar{a_t}} \epsilon_t \tag{8}$
从 $P(x_{t-1}|x_t, x_0)$ 的概率分布采样可得到：
在这里插入图片描述