第二十三周周报:High-fidelity Person-centric Subject-to-Image Synthesis
目录
摘要
Abstract
TDM
SDM
SNF
测试时的人物细节捕捉
主要贡献
总结
摘要
本周阅读了一篇2024年CVPR的关于高保真度、以人物为中心的图像合成方法的论文:High-fidelity Person-centric Subject-to-Image Synthesis。该论文提出了一种名为Face-diffuser的生成管道,旨在解决现有方法在训练不平衡和质量妥协问题上的不足,通过独立微调两个专门的预训练扩散模型来实现人物和语义场景的合成。
Abstract
This week, I read a paper from CVPR 2024 on a high-fidelity, person-centric image synthesis method titled "High-fidelity Person-centric Subject-to-Image Synthesis". The paper proposes a generative pipeline called Face-diffuser, aimed at addressing the shortcomings of existing methods in terms of training imbalance and quality compromise. It achieves the synthesis of subjects and semantic scenes by independently fine-tuning two specialized pre-trained diffusion models.
论文链接:2311.10329 (arxiv.org)
作者:Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin
该论文以现有的人物到图像合成方法面临着训练不平衡和质量妥协的问题,导致在联合学习中无法优化人物生成的质量为研究背景 。为了解决上述问题,研究者提出了Face-diffuser,这是一个有效的协作生成管道,用于人物和语义场景的合成 。Face-diffuser首先独立微调两个基于稳定扩散的专门预训练扩散模型:Text-driven Diffusion Model (TDM)和Subject-augmented Diffusion Model (SDM),分别用于场景和人物生成 。
效果图如下所示:
Face-diffuser的采样过程分为三个连续阶段:
- 语义场景构建:使用TDM构建初步的语义场景。
- 人物-场景融合:TDM和SDM基于有效的协作机制Saliency-adaptive Noise Fusion(SNF)进行协作,将人物融入场景中。
- 人物增强:进一步使用SDM来细化生成人物的质量。
网络结构图如下所示:
TDM
Stable diffusion (SD) is employed as our TDM. For semantic scene generation, given the semantic scene prompt c and the input image x, the VAE first encodes the x into a latent
representation z, perturbed by Gaussian noise ε to getat t step during diffusion. Then the text encoder ψ maps semantic scene prompts c to conditional embeddings ψ(c) which
would be integrated into the denoiser, U-Net through cross-attention [8, 9, 29, 32]. The training objective is to minimize the loss function as follows:
During inference, a random noise
is sampled from a normal distribution N (0, 1), and this noise is iteratively denoised by the U-Net to produce the initial latent representation
.
Subsequently, the VAE decoder maps these latent codes back to pixel space to generate the final image.
稳定扩散(SD)被用作我们的文本驱动扩散模型(TDM)。对于语义场景生成,给定语义场景提示c和输入图像x,变分自编码器(VAE)首先将x编码成潜在表示z,通过高斯噪声ε扰动得到扩散过程中第t步的。然后,文本编码器ψ将语义场景提示c映射到条件嵌入ψ(c),这些嵌入将通过交叉注意力机制[8, 9, 29, 32]整合到去噪器,U-Net中。训练目标是最小化如下损失函数:
推理过程中,从标准正态分布 N(0,1)中采样一个随机噪声 ϵ,并由 U-Net 迭代去噪以产生初始的潜在表示。随后,VAE 解码器将这些潜在编码映射回像素空间以生成最终图像 。
SDM
The SDM model tailored for subject generation is also based on the SD model but includes an additional reference image condition r . Inspired by previous works like [17, 34], weadopt a tuning-free approach by enhancing text prompts with visual features extracted from reference images. When given a text prompt and a list of reference images, we begin byencoding the text prompt and reference subjects into embeddings using pre-trained CLIP text and image encoders, respectively. Following this, we replace the user-specific word embeddings with these visual features and input the resulting augmented embeddings into a multilayer perceptron (MLP). This process yields the final conditioning embeddings, denoted as. The loss function of SDM closely resembles the one in Eq. (1), wi th the substitution of ψ ( c ) by
.
![]()
为生成主体而定制的SDM模型也基于SD模型,但包括一个额外的参考图像条件 r。受到像 [17, 34] 这样的先前工作的启发,我们采用了一种无需调整的方法,通过从参考图像中提取视觉特征来增强文本提示。当给定一个文本提示和一系列参考图像时,我们首先使用预训练的CLIP文本和图像编码器分别对文本提示和参考主体进行编码,生成嵌入。接下来,我们用这些视觉特征替换用户特定的词嵌入,并将生成的增强嵌入输入到多层感知器(MLP)中。这个过程产生了最终的条件嵌入,记作。SDM的损失函数与方程(1)中的非常相似,只是将 ψ(c)替换为
。
SNF
请注意,响应和
实际上评估了语义场景和参考图像对预测噪声中每个像素的影响,具有较大值的区域意味着这些条件对这些像素有显著影响,这自然定义了TDM和STM在这一步的责任。
正式地,我们首先基于 和
定义以下两个显著性图:
其中,操作符 Abs(⋅)计算输入变量的绝对值,而 Smooth(⋅) 函数用于减少高频噪声,有效地消除局部异常值并增强相邻区域的一致性。和
的实证验证,即它们的视觉化呈现在第4.3节。
给定 和
,我们继续通过比较这两个显著性图来开发显著性自适应融合掩码:
这里的softmax操作至关重要,因为 和
的值可能有不同的量级,它确保每个显著性图的总和保持不变,从而使它们可比较。掩码 M 被用来定义协作机制,即
和
的像素分别在生成过程中分配给TDM和SDM。
最后,可以通过以下过程获得融合后的噪声:
这里的 ⊙ 表示哈达玛积(即元素对应的乘积),为了简化表示,我们省略了 t。需要注意的是,在每个采样步骤中,两个模型都以混合后的 作为输入,这有助于自动实现两个模型噪声空间的语义对齐。
SNF是一种基于分类器自由引导(CFG)的细粒度协作机制,可以无缝集成到DDIM采样过程中 。在每一步中,SNF利用两个模型的CFG响应来生成一个适应于显著性的掩码,自动分配区域给它们进行合成。
测试时的人物细节捕捉
为了在测试时捕获并保留参考图像中给出的人物细节,Face-diffuser让SDM中的CFG响应成为有无参考人物图像之间的噪声差异,从而忽略文本条件的影响 。这种设置无疑指导SDM将显著性仅集中在与人物相关的区域,从而实现更高精度的人物生成 。
主要贡献
- 提出的Face-diffuser打破了现有人物到图像生成方法中的训练不平衡和质量妥协问题 。
- 通过有效的协作机制,Face-diffuser能够在测试时生成高质量样本,人物和语义场景生成器在不同时间步骤和不同图像中负责不同区域,实现灵活的演变合作 。
总结
Face-diffuser通过独立微调和细粒度协作机制,显著提高了人物和语义场景生成的高保真度。这种方法为解决现有人物到图像合成方法中的问题提供了一种有效的解决方案,并为未来的研究和应用提供了新的方向 。
下周将继续学习扩散生成模型有关内容。
如有错误,请各位大佬指出,谢谢!