当前位置：首页 > news >正文

[2025CVPR:图象合成、生成方向]WF-VAE：通过小波驱动的能量流增强视频 VAE 的潜在视频扩散模型

news 2025/7/27 9:09:15

论文概述

这篇论文提出了一种名为WF-VAE（Wavelet Flow VAE）的新型视频变分自编码器（Video VAE），旨在解决潜在视频扩散模型（LVDM）中的关键瓶颈问题，包括高计算成本和潜在空间不连续性。WF-VAE利用小波变换（Wavelet Transform）来分解视频信号，并通过能量流路径优化信息编码，显著提升了效率和重建质量。同时，论文引入了Causal Cache机制，支持无损的分块推理（block-wise inference），解决了长视频处理中的闪烁和失真问题。实验表明，WF-VAE在PSNR、LPIPS等指标上优于现有方法，同时将吞吐量提高2倍、内存消耗降低4倍。

背景与动机

视频变分自编码器（Video VAE）是LVDM的核心组件，用于将视频压缩到低维潜在空间，以降低扩散模型的训练成本。然而，随着视频分辨率和时长增加，现有VAE面临两大挑战：

计算瓶颈：现有方法（如OD-VAE、Allegro）使用密集3D卷积架构，导致高内存消耗和低吞吐量。例如，处理512×512分辨率视频时，基线模型内存占用可高达55GB，而编码速度慢至0.37秒/帧。
潜在空间不连续：分块推理策略（如Open-Sora和CogVideoX所用）会导致视频重叠区域的失真和闪烁，破坏潜在空间完整性。例如，分块推理使PSNR下降高达6.4。

这些问题源于现有VAE未能有效利用视频的时空冗余信息。因此，论文提

查看全文

http://www.lryc.cn/news/600651.html