当前位置: 首页 > news >正文

【论文阅读】RestorerID: Towards Tuning-Free Face Restoration with ID Preservation

人脸恢复在严重退化情况下(如重度模糊或压缩)仍难以有效保留身份信息。现有参考引导方法(如基于对齐或个性化调优的方案)存在精度不足耗时过长的问题。为此,本文提出RestorerID,一种基于扩散模型的无调优方法,通过以下创新实现身份信息与图像质量的双重保障:

  1. 统一框架设计
    将身份注入与基础盲恢复模型结合,通过独立提取低质量(LQ)图像的结构特征和参考图像的身份特征,分别通过残差块(ResBlock)和注意力模块(Attention)注入扩散 UNet,确保特征融合无参数冲突。

  2. FIR-Adapter 模块
    针对 LQ 与参考图像因光照、姿态差异导致的内容不一致轮廓错位,设计自适应平衡模块,通过特征交互增强潜在表示,减少信息冲突。

  3. 自适应 ID 比例调整策略
    根据退化程度动态调整身份注入强度,确保在不同退化场景下均能生成最优结果。

参考引导方法的局限

  • 基于对齐的方法(如 ASFFNet、DMDNet)依赖精确对齐,易受姿态差异影响,导致融合效果不佳。

  • 无对齐方法(如 PFStorer)通过个性化模型学习身份表示,避免对齐,但需耗时调优(单身份超 10 分钟 + 3-5 张图),且存在隐私风险。

核心挑战与解决方案

挑战 1:结构与身份信息的融合

  • LQ 图像提供结构信息,参考图像提供身份信息,需在统一框架中精准提取并注入,避免特征混淆。
  • 解决方案:采用独立空间模型和身份模型,通过 ResBlock 和注意力模块分别注入扩散 UNet,实现特征并行融合。

挑战 2:信息冲突的平衡

  • LQ 与参考图像因姿态、光照差异产生冲突,直接注入身份信息会破坏结构。
  • 解决方案:设计 FIR-Adapter 模块,通过特征交互动态平衡两类信息,避免轮廓错位和内容失真。

RestorerID 的创新点

  • 扩散模型驱动:利用 UNet 的多尺度特征处理能力,结合残差和注意力机制实现精细化恢复。

  • 自适应策略:根据退化程度调整 ID 注入强度,确保鲁棒性。

  • 无调优与无对齐:相比 PFStorer,无需个性化训练,显著提升效率和隐私保护。

表 1 对比显示,RestorerID 是唯一同时满足无调优无对齐高保真恢复的方法。其核心贡献包括:

  • 提出统一框架,实现多退化场景下的身份保留与高质量恢复。

  • 设计 FIR-Adapter 和自适应策略,有效解决信息冲突和退化差异问题。

  • 实验验证在多数据集上超越 SOTA,尤其在严重退化场景中表现突出。

3. Method

RestorerID 的核心是一个融合参考图像身份先验的人脸恢复框架,主要包含 5 个关键组件:

  • Stable-Diffusion(SD)UNet:作为基础扩散模型,负责图像去噪和恢复的主过程;
  • LQ 空间模型(LQ Spatial Model):提取低质量(LQ)图像的多尺度结构特征(\(F_{lq}\)),支撑基础恢复任务;
  • ID 模型(ID Model):从参考图像中提取身份特征(\(F_{ref}\)),通过解耦交叉注意力(decoupled cross-attention)注入 UNet;
  • FIR-Adapter:位于 ResBlock 和 Attention 层之间,用于平衡结构信息与身份信息,解决冲突;
  • 自适应 ID 比例调整模块(Adaptive ID-Scale Adjusting):根据退化程度动态调节身份注入强度,优化恢复效果。

Preliminaries
  • Stable Diffusion 是一种基于扩散过程的生成模型,核心组件包括:

    • CLIP 文本编码器:提取文本嵌入(用于文本引导生成);
    • VAE(变分自编码器):含编码器(E)和解码器(D),E 将图像压缩到低维潜空间(\(z_t\)),D 从潜向量重建图像;
    • UNet:在扩散过程中预测噪声,优化目标为噪声预测损失:
  • 图像提示适配器(Image Prompt Adapter) 以 IP-Adapter [39] 为例,其通过解耦交叉注意力将图像嵌入(如身份特征)注入 SD 的 UNet:

Face Restoration Base Model

基础模型是身份保留恢复的核心支撑,需具备强盲恢复能力。

  • 模型构建 参考 PFStorer [28],将 SD 与 StableSR [30] 的 LQ 空间模型结合,重新训练以适配人脸恢复任务。优化目标为:

  • 合成退化数据 为生成高质量(HQ)- 低质量(LQ)训练对,采用二阶退化模型 [34],包含模糊、缩放、加噪、JPEG 压缩等退化步骤。为更贴近真实场景,额外通过 ISP 模型 [7] 将图像从 sRGB 域转换到 RAW 域后加噪,模拟相机成像的真实噪声生成过程。

ID Preservation

直接注入身份的问题 :参考图像与 LQ 图像可能存在姿态、表情、装饰差异,直接通过 IP-Adapter 注入身份嵌入会导致:

  1. 面部轮廓错位(如姿态不一致);
  2. 内容错误(如错误复制参考图像的细节,忽略 LQ 的结构)。 如图 3 所示,注入身份后,恢复结果的结构完整性反而下降。

FIR-Adapter 设计:为解决上述问题,设计人脸身份再平衡适配器(FIR-Adapter),通过特征交互平衡结构与身份信息,具体包含两个模块:

  1. ID 交叉注意力(ID Cross-Attention):让 LQ 结构特征 F_lq 与参考身份特征F_ref 交互

  2. AdaIn 适应模块:通过 LayerNorm 和卷积层生成增益 Gi 和偏置 Bi,线性增强潜码 xi 的细节与轮廓:

第二阶段训练 冻结基础模型(SD UNet、LQ 空间模型、ID 模型),仅训练 FIR-Adapter。训练时:

  • 输入 LQ 图像和参考图像作为条件;
  • 固定 ID 比例\(\lambda=0.75\);
  • 随机 dropout LQ 或参考图像,支持推理时的分类器 - free 引导(提升生成鲁棒性);
  • 损失函数为:
Adaptive ID-Scale Adjusting

ID 比例\(\lambda\)(控制身份注入强度)对恢复效果影响显著:

  • 轻度退化时,高\(\lambda\)易导致细节错误(如无中生有皱纹);
  • 重度退化时,低\(\lambda\)无法有效保留身份。

因此,需根据退化程度动态调整\(\lambda\),规则为:退化越严重,\(\lambda\)越大

  • 退化程度量化 采用 MUSIQ metric [12]:值越高,退化越轻;值越低,退化越重。

  • \(\lambda\)计算公式 通过实验拟合最优\(\lambda\)与 MUSIQ 的关系:

Experiments

本章通过系统的实验验证了 RestorerID 的有效性,包括实验设置、性能对比与消融研究,全面评估其在不同退化场景下的表现。

Experimental Settings
  • Datasets

    • 训练集
      • 基础模型训练:使用 FFHQ [11](高质量人脸)和 VGGFace2 [2](多身份人脸);
      • FIR-Adapter 训练:从 VGGFace2 和 Celeb-Ref [16] 中筛选 9,384 个身份,每个身份 5-40 张图像,并用 ArcFace [5] 过滤低质量图像。
    • 测试集
      • 合成数据:从 Celeb-Ref 剩余数据中选 50 个身份,每个身份 2 张图(1 张作为真值,1 张作为参考图),生成轻度和重度两种退化的 LQ 图像;
      • 真实世界数据:从互联网收集 20 个身份的 LQ 和 HQ 图像,验证实际场景性能。
  • Implement Details

    • 基于 Stable Diffusion v1.5-base 构建;
    • 训练:基础模型迭代 60,000 次,FIR-Adapter 迭代 30,000 次,批次大小 16,优化器 AdamW [19],学习率 5×10⁻⁵;
    • 硬件:2 块 NVIDIA 48G-A6000 GPU,训练分辨率 512×512;
    • 推理:采用 DDIM [25] 采样(50 步),分类器 - free 引导(λcfg=7.5)。
  • Evaluation Metrics

    • 图像质量:PSNR(峰值信噪比,越高越好)、SSIM(结构相似性,越高越好)、LPIPS [42](感知相似度,越低越好)、MUSIQ [12](图像质量评分,越高越好);
    • 结构与身份:LMSE(关键点 MSE,越低越好,衡量轮廓一致性)、ID(ArcFace [5] 余弦相似度,越高越好,衡量身份保留)。
  • Comparing Methods

    • 参考引导方法:ASFFNet [15]、DMDNet [17](需对齐)、PFStorer [28](测试调优,用 5 张参考图);
    • 盲恢复方法:CodeFormer [45]、DR2 + SPAR [35](无参考)。
Performance Comparison
  • Quantitative
    表 2 显示,RestorerID 在不同退化场景下的核心优势体现在身份保留(ID 指标) 上:

    • 轻度退化:ID 指标领先,PSNR(26.03)等质量指标处于前列;
    • 重度退化:ID 指标达 0.548,远超第二名(0.473)0.075,证明其在极端退化下仍能精准保留身份;
    • 补充说明:盲恢复方法(如 DR2+SPAR)在 SSIM 上表现更好,但 SSIM 侧重结构清晰度,忽略面部细节自然度和身份保真度,而 RestorerID 在视觉质量与身份保留的平衡上更优。
  • Qualitative

    • 重度退化场景(图 6):当 LQ 图像因模糊(如眼、鼻特征丢失)难以识别时,RestorerID 恢复的人脸在身份细节(如眼部轮廓、鼻梁形状)上比盲恢复方法更精准,且优于 PFStorer(减少 artifacts);
    • 真实世界场景(图 7):RestorerID 在身份保留和图像质量上均领先,而对比方法(如 CodeFormer、PFStorer)存在细节失真或 artifacts(如面部区域扭曲)。

Ablation Studies

通过逐步添加组件,验证各模块的必要性:

  • 核心组件有效性(表 3):

    • 仅基础模型:ID 指标低(重度退化 0.401),无法保留身份;
    • 基础模型 + ID 注入:ID 指标提升(重度退化 0.557),但图像质量下降(如 LMSE 升高);
    • 基础模型 + ID 注入 + FIR-Adapter:平衡质量与身份(轻度退化 ID 达 0.859,重度退化 LMSE 从 5.635 降至 4.427);
    • 全模型(+AIDSA):效果最优,自适应策略进一步优化不同退化下的表现(图 9 显示减少内容不一致,如红 / 蓝框标注的细节错误)。
  • 两阶段训练的必要性(表 4):

    • 单阶段训练(同时训练基础模型和 FIR-Adapter)性能全面劣于两阶段训练:重度退化下 ID 指标 0.470(vs 两阶段 0.548),LMSE 4.626(vs 两阶段 4.348);
    • 原因:两阶段训练分别专注于盲恢复能力(基础模型)和信息平衡(FIR-Adapter),避免参数冲突;单阶段训练易导致面部细节(如胡须、眼睛)失真(图 10)。

http://www.lryc.cn/news/618131.html

相关文章:

  • LeetCode 分割回文串
  • 增加vscode 邮件菜单
  • 论文阅读(九)Locality-Aware Zero-Shot Human-Object Interaction Detection
  • Openlayers基础教程|从前端框架到GIS开发系列课程(24)openlayers结合canva绘制矩形绘制线
  • iOS 签名证书实践日记,我的一次从申请到上架的亲历
  • Docker-10.Docker基础-自定义镜像
  • 医疗矫正流(MedRF)框架在数智化系统中的深度应用
  • 无人机在环保监测中的应用:低空经济发展的智能监测与高效治理
  • 云平台监控-云原生环境Prometheus企业级监控实战
  • .NET MAUI框架编译Android应用流程
  • 计算机视觉(7)-纯视觉方案实现端到端轨迹规划(思路梳理)
  • 《飞算Java AI:从安装到需求转实战项目详细教学》
  • 解决anaconda打包幻境是报错:ImportError: cannot import name ‘tarfile‘ from ‘backports‘
  • Java多线程基础总结
  • 云原生环境Prometheus企业级监控实战
  • 【编程实践】关于Vscode无法连接Anaconda解译器的问题
  • 手机蓝牙无感开锁在智能柜锁与智能箱包中的整体解决方案
  • MySql——B树和B+树区别(innoDB引擎为什么把B+树作为默认的数据结构)
  • 2025-8-11-C++ 学习 暴力枚举(2)
  • STM32学习笔记7-TIM输入捕获模式
  • 【OpenGL】LearnOpenGL学习笔记06 - 坐标系统、MVP变换、绘制立方体
  • 复杂提示词配置文件
  • Tricentis Tosca:现代软件测试的自动化利器
  • 内存作假常见方案可行性分析
  • MySQL,Redis重点面试题
  • 最短路问题从入门到负权最短路
  • 基于51单片机指纹识别管理门禁密码锁系统设计
  • 集成电路学习:什么是URDF Parser统一机器人描述格式解析器
  • 19.Linux DHCP服务
  • 数据结构:串、数组与广义表