当前位置: 首页 > news >正文

【论文阅读】Improving the Diffusability of Autoencoders

提升自编码器的“可扩散性”(diffusability)。

论文指出:目前常用的 autoencoder 潜空间中含有太多高频成分,这会干扰扩散模型的“由粗到细”生成流程,从而降低生成质量。作者提出一种非常简单的正则化方法(scale equivariance),可显著提升图像和视频的生成效果。

目录

研究背景

Improving Diffusability

Blockwise 2D DCT

Latent 空间频谱分析

Scale Equivariance Regularization

Experiments

Improving Existing Autoencoders

Ablations

个人理解

related work


研究背景

Latent Diffusion Models(LDM)基本结构包括:

  • 一个 autoencoder(自编码器):将高维图像压缩到低维 latent 空间;
  • 一个 diffusion 模型:在 latent 空间中进行逐步生成。

虽然大量工作关注于: 提高 autoencoder 的重建质量、增加 latent 压缩率、扩展 diffusion 模型规模; 但作者指出:autoencoder 所生成的 latent 空间的频谱特性,与扩散过程的适配性(即 diffusability)缺乏系统研究

论文核心问题:Diffusability 的退化。

什么是 Diffusability?

作者定义 diffusability 为: autoencoder 的 latent 表征是否适合扩散模型中的 coarse-to-fine(由粗到细)生成过程

作者发现: 当前主流 autoencoder(尤其是 bottleneck 通道数较大者)在 latent 中存在大量不自然的高频成分; 这些高频会干扰 diffusion 模型的频谱构建流程,导致:

  1. coarse-to-fine 过程被破坏;
  2. 模型需花更多计算拟合无用高频,生成质量下降;
  3. 更容易引入 artifact(视觉伪影);
  4. 即便重建质量(PSNR/LPIPS)高,也不等于 diffusability 高。

频谱分析与实证观察:作者通过对多种主流 autoencoder(如 FluxAE、CosmosTokenizer、CogVideoX-AE、LTX-AE)进行频谱分析发现:

频率RGB 空间Latent 空间
低频占主导,结构信息削弱,信息不明显
高频渐弱(自然图像特性)异常增强,出现频谱“平台”现象

实验观察到:

  • Latent 的频谱呈现异常平坦(flat),特别在高通道维下;
  • 高频在最终解码图像中仍有明显影响,会引入结构偏差和纹理错误;
  • 传统的 KL 正则并未抑制这种高频,反而在部分设置下会放大该问题。

方法:引入 Scale Equivariance 正则

核心思想: 强制 latent 空间与 RGB 空间在不同缩放尺度下保持一致性(scale equivariance)

实现方式:

  • 对 latent 表征下采样(如 1/2、1/4 尺度);
  • 对应地将原图也下采样; 通过 decoder 解码后比较两者;
  • 加入一个正则项,使:Decoder(Downsample(z)) ≈ Downsample(Decoder(z))

效果: 抑制 latent 空间中的 spurious 高频成分; 不需改动模型结构,仅需对 decoder 加正则; 仅需 finetune 数千到 20K 步即可生效; 极大提升 latent 对扩散过程的兼容性。

Improving Diffusability

深入分析 autoencoder latent 空间的频谱结构问题,并提出一种新颖的 scale equivariance 正则化策略,用于提升其在 latent diffusion 模型(LDM)中的可扩散性。

Blockwise 2D DCT

背景知识:

作者使用 二维离散余弦变换(2D DCT) 对图像和 latent 表征进行频谱分析,借此研究不同频率成分(特别是高频)在 latent 空间中的分布。 将输入图像或 latent 分为多个不重叠的 B 小块。 对每个小块执行 2D DCT,将空间域信号 Pxy 映射为频域系数 Duv:

Zigzag 排序与频谱曲线

采用 JPEG 的 zigzag 顺序 从低频到高频排列频率分量,构造频谱曲线。

频谱定义:每个频率分量的归一化幅值:

该频谱曲线表示不同频率分量在图像或 latent 中的相对强度。

Latent 空间频谱分析

作者对 FluxAE 系列的 autoencoder(不同 bottleneck 通道数)进行训练,并分析其 latent 空间的频谱分布。

实验观察:

  • Flux latent 空间的高频成分显著强于 RGB 图像。
  • 通道数越多,高频越强: 通道数大 → 能表达更多细节 → 高频成分增加; 但这些高频并不结构化,分布混乱,妨碍了 diffusion 的频谱建模。

KL 正则反而带来副作用:

  • 传统的变分 autoencoder 使用 KL 正则将 latent 对齐到标准高斯分布,理论上有利于 diffusion 初始状态一致;
  • 但实际中,KL 正则由于注入噪声,反而放大 latent 中的高频分量,降低 diffusability; 如图 3 所示,KL 强度越高,高频越严重。

原因分析:

  1. Diffusion 是一种 频域自回归过程(先生成低频,再逐步合成高频);
  2. 如果 latent 的频谱是 平坦的(高低频差别小),则白噪声扰动无法做到“逐层合成”;
  3. 高频建模难度大,误差积累快,因此应尽量避免 latent 空间中存在大量高频。

Scale Equivariance Regularization

(尺度等变正则) 为抑制 latent 中的高频问题,作者提出 尺度等变(scale equivariance)正则化,其目标有两个:

  1. 抑制 latent 空间中的高频分量;
  2. 避免 decoder 放大这些高频影响,确保输出图像频谱更自然。

方法步骤:

频谱对齐目标:

  • 保证 latent 空间与 RGB 空间在不同频率尺度下的表现一致;
  • 关键思想:在训练中下采样 latent 和图像,要求 decoder 能从低频重构对应低频图像。

实现方案:Downsampling + 多尺度 reconstruction loss:

对图像 x 和 latent 表征 z 分别下采样成 ~x 和 ~z; 加入额外的重建损失项:

效果分析:

  • 图 4:频谱曲线显示,高频被有效削弱,latent 更接近自然图像频谱;
  • 图 8:相比 baseline,该正则方法保留更多内容,同时避免高频伪影;
  • 图 6:在扩散过程中,采样轨迹更平滑、更结构化,展现健康的 coarse-to-fine 合成流程。

 

Experiments

围绕提出的 Scale Equivariance Regularization(SE 正则化) 进行实证研究。通过在图像和视频自动编码器(AE)上进行微调,展示该正则化对下游 Latent Diffusion Models (LDMs) 生成质量的提升,并进行了消融实验验证其独立有效性与合理性。

Improving Existing Autoencoders

(提升现有 AE)

数据设置

  • 使用内部 in-the-wild 图像与视频数据训练所有 autoencoder,与 ImageNet-1K 与 Kinetics-700 保持无重叠,以防数据泄漏。
  • 数据分布与 COYO、Panda-70M 等公开数据集相近。
  • 为控制变量,所有 baseline autoencoder 均按相同数据和训练配置训练,仅不包含 SE 正则化。

评估指标

  • 图像 LDM:FID(Frechet Inception Distance)和 FDD(基于 DINOv2 特征的 Frechet Distance);
  • 视频 LDM:FVD10K、FID、FDD(消融实验中用 5K 样本);
  • Autoencoder 重建质量:PSNR、SSIM、LPIPS、FID;
  • 采样量:图像模型评估使用 50,000 张图片,AE 评估使用 ImageNet/Kinetics 的 512 样本。

Image Autoencoders 微调实验

基线模型:

  • FluxAE(压缩率 8×8,16 latent 通道)
  • CMS-AEI(压缩率 16×16,16 latent 通道,高压缩比)

训练设置:

  • 微调 10K 步,batch size = 32(总计 32 万张图像)
  • 正则化时,随机选择 2× 或 4× 下采样比率

实验命名规则:

  • “vanilla”:原始 autoencoder,不含任何微调;
  • “+FT”:在同一数据上微调,不加正则;
  • “+FT-SE”:加入 SE 正则化微调

下游模型:使用 DiT 作为 diffusion backbone,并引入了一些架构改进(见附录)

结果(Table 1):

  • FluxAE + FT-SE 比 vanilla 版本 FID 降低 19%
  • 比 +FT(无正则)版本 FID 也降低 8%
  • CMS-AEI 性能未提升,原因是其本身训练 pipeline 被扰动,加入微调反而损害重建(FID 从 11.69 → 13.59)

Video Autoencoders 微调实验

基线模型:

  • CogVideoX-AE(CV-AE):压缩率 4×8×8,16 latent 通道
  • LTXAE:压缩率 8×32×32,32 latent 通道,极高压缩比

训练设置:

  • 微调 20K 步,batch size = 32
  • 图像 batch 视为单帧视频,兼容因视频 AE 构造为 causal 结构

评估集:Kinetics-700

模型训练组合:

  • vanilla
  • +FT(不加正则)
  • +FT-SE(加 SE 正则)

结果(Table 2):

  • CV-AE:FVD10K 降低 44%
  • LTXAE:FVD10K 降低 54%

说明:视频 AE 的 latent 结构更混乱,正则化收益更显著

额外实验:对 CV-AE 使用大模型 DiT-XL/2,发现 FVD10K 再降低一半,验证正则化对大模型也具扩展性。

Ablations

A. SE 正则化是否影响重建质量?

使用四项指标(PSNR, SSIM, LPIPS, FID)评估图像和视频 AE 的重建能力。

结果(Table 4):加入 SE 正则后重建质量几乎不变。

说明:该方法能提升生成质量而不牺牲 autoencoder 重建能力。

B. 增加 KL 权重能否代替 SE?

在 DiT-S/2 上实验不同 KL 强度(β):

  • KL β = 0.1 虽能提升 FID,但 严重降低 PSNR
  • 对大模型 DiT-L/2,性能下降明显,限制其扩展

对比:SE 正则不依赖 KL,且可适配不同大小模型,重建和生成都保持高质量

C. 是否是 implicit time shifting 造成性能提升?

SE 正则使 latent 更平滑,可能带来“隐式时间平移”效应(Gao et al., 2024): 即高频削弱,模型将计算资源用于低频,更稳定

实验:在不同时间偏移量设置下评估 FDD5K(见 Figure 10)

结果:FluxAE + FT-SE 在所有设置中始终表现最佳,说明性能提升并非来自 time shift,而是源于更好的 diffusability

D. 不同正则强度的影响?

在 FluxAE 上测试不同的 α(SE 正则 loss 权重)设置(见 Figure 9):

  • 越强的正则越压缩高频,生成质量更好,但重建性能下降
  • 最终选用 α=0.25 平衡生成与重建性能

E. 直接削除高频(DCT Cut)是否也能提升质量?

在 DCT 域中逐步移除 latent 高频成分,并测量重建指标(Figure 8)

结果:加入 SE 正则后的 AE,在各频率截断比下表现都优于 baseline,表明其 latent 更频谱自然,鲁棒性更好。

个人理解

可以总结为一句话: 好用的扩散模型不仅要有强大的“扩散主干”,还得有“懂得配合”的 autoencoder(自动编码器)——否则生成质量会大打折扣。

论文主要发现是什么?

以往工作优化 LDM 时,大多关注:

  • 如何把扩散网络做得更大、更强(比如更深的 DiT backbone)

  • 如何提升 autoencoder 的重建质量和压缩效率

但这篇论文指出:还有一个关键因素被忽视了 —— autoencoder 的“可扩散性”(diffusability)

什么是“diffusability”?

Diffusability 指的是:autoencoder 的 latent 表达是否适合扩散模型去一步步复原图像

扩散模型本质上是一个“从模糊到清晰”的过程,它是先还原低频(轮廓、结构),再加上高频(纹理、细节)。但作者发现:很多现代 autoencoder 学出来的 latent 特征中,高频信号太强了,这反而破坏了扩散模型那种“粗到细”的生成逻辑,使得扩散效果变差。

他们是怎么发现的?

  1. 频谱分析:用 DCT(离散余弦变换)对 latent 表达进行频域分析,发现:

    • 相比 RGB 图像的频谱,latent 空间的高频成分过多过强

    • AE 的 bottleneck 通道越多,高频就越严重(因为能容纳更多细节)

  2. 实验验证

    • 使用原始 autoencoder 训练扩散模型,发现生成效果明显差于频谱更自然的 latent

  3. KL 正则化其实帮倒忙

    • 原本 KL 用来让 latent 分布更接近高斯,但它无意中引入更多高频噪声,反而降低了 diffusability

怎么解决这个问题?

作者提出了一个简单但有效的正则化方法:Scale Equivariance Regularization,具体做法:

  1. 下采样输入图像和 latent(2×、4×)

  2. 训练 decoder 让下采样后的 latent 能还原出下采样后的图像

  3. 换句话说:强迫 decoder 保持“尺度等变性”,不放大高频信息

这样训练出来的 AE:

  • latent 中的高频成分少了

  • decoder 也不再盲目放大高频

  • 更适合扩散模型进行从“模糊到清晰”的生成

实验结果说明什么?

  • 图像生成(ImageNet):使用 FluxAE,加入 SE 正则后 FID 降低了 19%

  • 视频生成(Kinetics):加入正则的 AE 在 FVD10K 上降低了 44%-54%

  • 重建质量几乎不变

  • 替代方案(如调 KL 权重)会影响重建效果,不如 SE 稳定可靠

要点内容
核心问题AE latent 的高频过强会影响扩散效果
发现手段频谱分析(DCT)+ 系统实验
解决方法用下采样做正则,让 decoder 不再过度使用高频信息(Scale Equivariance)
效果提升生成质量,几乎不损失重建质量
意义为改进 LDM 的整体结构提出新视角:不仅要压得好、复原准,还得“频谱友好”

 

related work

另外感觉和FreeU 方法(《FreeU: Free Lunch in Diffusion U-Net》)这篇论文虽然研究切入点不同(一个聚焦于 U-Net 中 skip/base 分支权重重设,一个聚焦于 autoencoder latent 空间的频谱分布),但它们在核心思想上有共通性:

项目FreeUImproving Diffusability
问题原始 U-Net 的 跳跃连接 (skip) 含有过多 高频信息,会掩盖有意义的低频信号,降低去噪效果现代 autoencoder 的 latent 特征 存在过强的 高频分量,不利于扩散模型按“低频→高频”逐步生成
分析网络结构视角(U-Net 路径信息分流)频域视角(DCT 分析 latent 中的频谱能量分布)
对策降低跳跃连接的通道权重提升主干特征(base)权重,以平衡低/高频对 autoencoder 做 尺度等变正则(scale equivariance),通过下采样抑制 latent 中的高频
效果提升生成图像清晰度与一致性,且无需再训练降低 FID/FVD,提升 LDM 整体性能,几乎不损失重建精度

 

共通点解释
都认为“高频 ≠ 高质量”高频细节不是越多越好,过强反而会干扰扩散模型的 coarse-to-fine 特性
强调低频的重要性扩散过程中,低频信息是模型“先看清结构”的关键,应该增强其引导作用
关注生成模型的“信息路径质量”FreeU 关注 U-Net 的信息路径,Diffusability 关注 autoencoder 的 latent 表达——本质上都是在优化扩散前的信息“承载路径”
都避免改变原始模型架构或再训练主模型只对辅助部分(U-Net 权重或 autoencoder)进行轻量调整,无需大幅改动主干或重新训练大模型

 

http://www.lryc.cn/news/582591.html

相关文章:

  • gloo 多卡训练
  • curl: (56) OpenSSL SSL_read: Connection reset by peer, errno 104
  • 开发中如何自定义线程池
  • [1-01-01].第50节:泛型 - 泛型的使用
  • 深入了解linux系统—— System V之消息队列和信号量
  • 自动驾驶的“安全基石”:NVIDIA如何用技术守护未来出行
  • 冷链物流配送中心选址与路径优化模型研究
  • 跨越十年的C++演进:C++23新特性全解析
  • 3423. 循环数组中相邻元素的最大差值 — day97
  • 【PTA数据结构 | C语言版】在顺序表 list 的第 i 个位置上插入元素 x
  • JVM 基础 - 类字节码详解
  • Spring自动装配(xml)
  • Vue、Laravel 项目初始化命令对比 / curl 命令/ CORS 机制总结与案例
  • AlphaEvolve:谷歌的算法进化引擎 | 从数学证明到芯片设计的AI自主发现新纪元
  • UI前端大数据处理挑战与对策:大数据量下的实时数据分析技术
  • CD46.【C++ Dev】list的模拟实现(1)
  • 人体坐姿检测系统开发实战(YOLOv8+PyTorch+可视化)
  • WHIP(WebRTC HTTP Ingestion Protocol)详解
  • 装修水电改造需要注意什么?水电改造有哪些注意事项?
  • 力扣-287.寻找重复数
  • 容器技术入门与Docker环境部署
  • 【佳易王娱乐场儿童乐园会员多项目管理系统软件】从 “手工记账” 到 “智能管理”:儿童乐园会员系统的转型价值
  • Docker实用命令
  • 脚本检测 自启 关闭 重启等 tomcat 可修改成其他程序 结合crontab 每天凌晨1点执行
  • LocalStorage和SessionStorage的区别和应用
  • UI前端与数字孪生结合实践案例:智慧零售的库存管理优化系统
  • 车载HMI革命:从物理按键到智能表面的交互逻辑重构
  • 高版本的MacOS如何降级?
  • 250708-Debian系统安装Edge浏览器并配置最小中文输入法
  • KTM5910,24bit 绝对角度磁性编码器,在轴应用,- 内部集成超高性能双 16bit 2M SAR ADC