当前位置：首页 > news >正文

手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion（原理介绍）

news 2025/8/14 18:39:20

手撕Diffusion系列 - 第九期 - 改进为Stable Diffusion（原理介绍）

DDPM 原理图

DDPM包括两个过程：前向过程（forward process）和反向过程（reverse process），其中前向过程又称为扩散过程（diffusion process），如下图所示。无论是前向过程还是反向过程都是一个参数化的马尔可夫链（Markov chain），其中反向过程可以用来生成图片。

在这里插入图片描述

DDPM 整体大概流程

图中，由高斯随机噪声 $x_T$ 生成原始图片 $x_0$ 为反向过程，反之为前向过程（噪音扩散）。

Stable Diffusion 原理

Stable Diffusion的原理解释

Stable Diffusion的网络结构图如下图所示：

在这里插入图片描述

Stable Diffusion 的网络结构图

我们可以发现Stable Diffsion，其实还是大部分基于Diffusion的，基本的扩散方式没有发生改变。
前向扩散阶段：还是先进行前向扩散(如图中的上半部分所示)，得到扩散后的 $x_t$ ，就类似这里的 $z_T$ ，只不过这里把原本的图像(就是我们之前提的 x )利用 AE，VAE，VQVAE等自编码器，进行了图像特征提取，把隐变量(z)作为原本的真实清晰图像，从而一定程度上减少了计算量（改动1）。
训练阶段：如图中下半部分所示，仍然是随机生成的批量t，利用公式得到批量的z_t，然后对Unet输入z_t，不过这里添加了一定的引导信息 ( 比如 MNist数据集中的label，也可以是文字信息等等(改动2) ) ，然后生成下个阶段的噪声图。损失也仍然是上个个时刻的噪声图和预测出来的噪声图之间的差距。
去噪阶段：如图中下半部分所示，输入噪声图，引导词，经过T次的去噪，然后生成清晰的图像，只不过这里图像是经过特征提取过的，所以最后利用 AE，VAE，VQVAE等自编码器的解码器，进行解码即可(改动3)。

Stable Diffusion 和 Diffusion 的区别

改动1：利用 AE，VAE，VQVAE 等自编码器，进行了图像特征提取，利用正确提取特征后的图像作为自己原本在Diffusion中的图像。
改动2：在训练过程中，额外添加了一些引导信息，促使图像生成，往我们所希望的方向去走，这里添加信息的方式主要是利用交叉注意力机制（这里我看图应该是只用交叉注意力就行，但是我看视频博主用的代码以及参照的Stable-Diffusion Unet图上都是利用的Transoformer的编码器，也就是得到注意力值之后还得进行一个feedforward层）。
改动3：利用 AE，VAE，VQVAE 等自编码器进行解码。（这个实质上和第一点是重复的）
注意：本次的代码改动先只改动第二个，也就是添加引导信息，对于编码器用于减少计算量，本次改进先不参与（555~，因为视频博主没教），后续可能会进行添加（因为也比较简单）。

Stable Diffusion 的Unet图讲解

Stable Diffusion 和Diffusion 的Unet对比

在这里插入图片描述

原本的Unet图像

在这里插入图片描述

Stable Diffusion的 Unet 图像

我们可以发现，两者之间的区别主要在于，在卷积完了之后添加了一个Transformer的模块，也就是其编码器将两个信息进行了融合，其他并没有改变。
所以主要区别在卷积后的那一部分，如下图。

在这里插入图片描述

卷积后的区别

这个ResnetBlock就是之前的卷积模块，作为右边的残差部分，所以这里写成了ResnetBlock。
因此，如果我们将Tranformer模块融入到Restnet模块里面，并且保持其输入卷积的图像和transformer输出的图像形状一致的话，那么就其他部分完全不需要改变了，只不过里面多添加了一些引导信息(MNIST数据集中是label，但是也可以添加文本等等引导信息) 而已。