当前位置：首页 > news >正文

深度学习（生成式模型）——Classifier Free Guidance Diffusion

news 2025/8/28 22:26:58

文章目录

前言
推导流程
训练流程
测试流程

前言

在上一节中，我们总结了Classifier Guidance Diffusion，其有两个弊端，一是需要额外训练一个分类头，引入了额外的训练开销。二是要噪声图像通常难以分类，分类头通常难以学习，影响生成图像的质量。

Classifier Free Guidance Diffusion解决了上述两个弊端，不需要引入额外的分类头即可控制图像的生成。

本节所有符号含义与前文一致，请读者阅读完前三篇博文后在查阅此文。

本文仅总结backbone为DDIM情况下的Classifier Free Guidance Diffusion

推导流程

依据前文可知Classifier Guidance Diffusion的前向过程与反向过程与DDPM一致，且有
$q(x_t|x_{t-1},y)=q(x_t|x_{t-1})$

则有 $q(x_t|x_{0},y)=q(x_t|x_0)=\mathcal N(x_t;\sqrt{\bar \alpha_t}x_0,(1-\bar\alpha_t)\mathcal I)$

假设目前有一批基于条件 $y$ 的样本 $x_t$ ， $\epsilon(x_t,t,y)$ 服从标准正态分布，则样本 $x_t$ 将满足
$x_t=\sqrt{\bar \alpha_t}x_0+\sqrt{1-\bar\alpha_t}\epsilon(x_t,t,y)\tag{1.0}$

依据Tweedie方法，我们有

$\begin{aligned} \sqrt{\bar \alpha_t}x_0=x_t+(1-\bar\alpha_t)\nabla_{x_t}\log p(x_t|y) \end{aligned}$
进而有
$x_t=\sqrt{\bar \alpha_t}x_0-(1-\bar\alpha_t)\nabla_{x_t}\log p(x_t|y)\tag{1.1}$

结合式1.0与1.1，则有

$\nabla_{x_t}\log p(x_t|y)=-\frac{1}{\sqrt{1-\bar\alpha_t}}\epsilon(x_t,t,y)\tag{1.2}$

依据贝叶斯公式，我们有
$\begin{aligned} \log p(x_t|y)&=\log p(y|x_t)+\log p(x_t)-\log p(y)\\ \nabla_{x_t}\log p(y|x_t)&=\nabla_{x_t}\log p(x_t|y)-\nabla_{x_t}\log p(x_t)+\nabla_{x_t}\log p(y)\\ &=\nabla_{x_t}\log p(x_t|y)-\nabla_{x_t}\log p(x_t)\\ &=-\frac{1}{\sqrt{1-\bar\alpha_t}}\epsilon(x_t,t,y)+\frac{1}{\sqrt{1-\bar\alpha_t}}\epsilon(x_t,t) \end{aligned}\tag{1.3}$

回顾一下backbone为DDIM的Classifier Guidance Diffusion的采样流程
在这里插入图片描述

将式1.3代入，且引入一个超参数 $w$ ，可得
$\begin{aligned} \hat \epsilon &= \epsilon_\theta(x_t)-w\sqrt{1-\bar\alpha_t}\nabla_{x_t}\log p(y|x_t)\\ &=\epsilon_\theta(x_t)-w(\epsilon_\theta(x_t,t)-\epsilon_\theta(x_t,t,y))\\ &=(1-w)\epsilon_\theta(x_t,t)+w\epsilon_\theta(x_t,t,y) \end{aligned}\tag{1.4}$

注意到原论文的推导结果为（为了区分，超参数设为 $\hat w$ ）

$\hat \epsilon = (1+\hat w)\epsilon_\theta(x_t,t,y)-\hat w\epsilon_\theta(x_t,t)\tag{1.5}$

式1.5和1.4是一致的，均为 $\epsilon_\theta(x_t,t,y)$ 与 $\epsilon_\theta(x_t,t)$ 的加权和，且权重和为1。

训练流程

依据式1.5，我们需要训练两个神经网络 $\epsilon_\theta(x_t,t,y)$ 与 $\epsilon_\theta(x_t,t)$ ，前者为的输入包含加噪图片 $x_t$ 以及条件 $y$ （图像or文字），后者的输入仅包含加噪图像 $x_t$ 。但其实两个神经网络可以共用一个backbone，在训练时，只需要用一定的概率将条件 $y$ 设置为空即可。