【论文阅读】Face2Diffusion for Fast and Editable Face Personalization
code:mapooon/Face2Diffusion: [CVPR 2024] Face2Diffusion for Fast and Editable Face Personalization https://arxiv.org/abs/2403.05094 (github.com)
论文
介绍
目标:向 T2I 模型不知道的图像中插入特定概念(例如某人的脸),从而催生出诸如 TextualInversion 和 DreamBooth的个性化方法。这两个方法学习每个概念需要几十分钟的微调,基于此提出了Face2Diffusion (F2D),用于高可编辑性面部个性化。核心思想是从训练pipeline中删除与身份无关的信息,防止过拟合并提高编码面部的可编辑性。
特点:平衡了身份保真度和文本保真度。三个组件:1)多尺度身份编码器 (MSID) ,提供了解耦的身份特征,同时保留了多尺度信息,提高了相机姿势的多样性。 2)表情引导,将人脸表情与身份分离,提高人脸表情的可控性,可以通过文本提示和参考图像来控制人脸表情。 3)分类引导去噪正则化(CGDR) ,鼓励模型学习如何对面部进行去噪,从而增强背景的保真度。
图 1. Face2Diffusion 满足复杂的文本提示,文本包括多个条件,同时保留输入的面部身份,无需单独的测试时间调整。
方法
实验