ICML 2025 | 从语言到视觉,自回归模型VARSR开启图像超分新范式
在自然语言处理中,自回归建模(Autoregressive Modeling, AR)凭借其 "Next-token Prediction" 的方式,已在GPT、LLaMA等大语言模型中取得了突破性成果。受此启发,业界开始将自回归方法从语言迁移到视觉领域,在图像生成领域(DALL·E、GPT-4o)也表现出了巨大的潜力。相较于基于扩散模型(Diffusion Model)的生成方式,自回归的方式更加有效地建模多模态信息,同时避免噪声采样的随机性,进而生成更加稳定的结果。
为了将自回归建模的优势引入到图像/视频超分(Super-resolution, SR)领域,快手音视频技术部联合清华大学提出了VARSR算法,开辟了区别于扩散模型的新技术路线,相关成果《Visual Autoregressive Modeling for Image Super-Resolution》已被ICML 2025国际顶级会议接收。
International Conference on Machine Learning(ICML)是机器学习领域的顶级国际会议,与ICLR、NeurIPS共同被称为三大顶会。其收录的论文代表了人工智能与机器学习领域的创新技术与重大成果,是该领域学术研究与行业发展的风向标。ICML 2025共收到12,107篇有效投稿,其中有3,260篇论文被接收,接收率为26.9%。
论文链接:https://arxiv.org/abs/2501.18993
代码链接:https://github.com/quyp2000/VARSR
一、背景
图像超分作为一项核心视觉任务,旨在将低分辨率图像还原为高清图像。近年来,随着生成模型的应用,这一领域取得了飞跃式的发展。当前主流方法大致分为两类:一类是基于GAN的对抗式方法 [1,2],强调纹理还原,但面临训练不稳定和细节真实性不足的问题;另一类是基于Diffusion的扩散模型 [3,4],其借助强大的生成先验,在细节恢复上展现出惊艳表现。然而,基于AR的建模方式尚未被充分探索。与基于Diffusion的扩散模型相比,AR具有以下几点优势:
1. 更加有效建模多模态信息:利用低清图像、类别/文本描述信息更好地指导生成过程,兼顾生成的真实性与相较于原始信息的保真度;
2. 推理过程更加符合马尔可夫单向性的假设:在保持语义和结构信息的同时,能够避免噪声采样带来的随机性,使得生成结果更加稳定。
因此,将AR应用于超分领域具有显著潜力。快手在业界首次提出了VARSR算法,对状态条件引入、空间结构保持、细节纹理提升进行了深入探索,实现了更好、更快的图像超分效果。
二、方法
图1:三种不同的自回归建模形式以及核心模块(图片来源 [5])
常用的AR方法为next-token prediction的方式,基于前序的tokens来生成下一个临近的token:
然而,这种对图像的建模可能会破坏其空间结构,并违背马尔可夫单向性假设(即图像的不同区域应该是双向可见的)。为此,VARSR采用了VAR [6] 提出的next-scale prediction的方式,如图1所示,将图像划分为不同尺度、分辨率下的token maps,并基于前面的尺度对下一尺度的map进行预测:
整体架构
图2:VARSR的整体流程
基于生成式模型的图像超分需要兼顾真实性与保真度,有几个亟待解决的问题:
1. 如何有效引入低清图像,高效融合语义信息?
2. 如何建模不同尺度的空间位置,以提高生成图像的结构稳定性?
3. 如何克服视觉token离散化表示的信息损失,以提高生成高清图像的保真度?
4. 如何让模型感知真实图片与损伤图片的差异,进而提升生成高清图像的真实性?
Prefix Tokens
Diffusion方法通常应用ControlNet架构,将低分辨率图像作为状态信息引入。然而,直接应用这种方式在自回归架构中会有两方面问题:一是带来额外的计算量;二是控制分支的状态信息会与前序token/scale的输入存在冲突。
为了解决第1个问题,我们采用了Prefix Tokens方式来引入低分辨率图像的状态信息。如图2所示,低分辨率图像经过图像编码器映射为tokens map -,在后续的各个尺度预测中进行固定
,提升语义融合的效率和一致性。
尺度对齐旋转位置编码
图3:尺度对齐旋转位置编码及Transformer内部结构
针对问题2,为了确保不同尺度的token信息具有一致的空间位置关系,进而提升生成稳定性,我们提出了尺度对齐旋转位置编码(Scale-aligned Rotary Positional Encodings)。对于不同尺度的token,都将其按照在图像中原始的位置,从二维的两个方向进行旋转位置编码:
如图3所示,这种方式可以确保来自低清图像的空间结构可以得到有效保持。
量化误差矫正器
将图像离散化表示为token的量化过程会导致图片细节信息丢失,针对上述问题3,我们对量化误差进行建模,并通过轻量化diffusion模型来模拟,以从噪声中建模一个连续的概率分布:
通过这种方式,我们在最后一个尺度针对预测结果叠加预测的残差信息,有效提升细节纹理。
图像质量感知引导
针对上述问题4,在文本生成图像的模型中常常采用Classifier-free Guidance方式来提升画质,但这种方式难以准确描述图片的低质量信息。为了感知图像中的低质量失真等因素,从而通过引导概率分布生成更具真实性的内容,我们提出了Image-based CFG,在训练时,将图像依据其质量划分为两类,高质量图像和低质量图像分别对应一个positive embedding -和negative embedding -
作为控制,分别引导图像生成高质量和低质量的内容。
在推理时,我们采用作为控制以生成高质量内容,分布可以写为:
在CFG中,我们通过一个引导超参数来对生成图像的质量和保真度进行平衡:
推理时可以表示为:
高质量图片数据集
图4:C2I基模型生成效果对比,VARSR的基模型画质更优
为了进一步提升修复效果的上限,我们收集并过滤构造了包含400万高质量图像的训练数据,分别进行:
(1)VAVQE [7]训练,提升压缩重建保真度;
(2)类别生成图像(Class-to-Image)基模型的预训练;
(3)并在此基础上训练VARSR。如图4所示,相较于开源的VARSR预训练模型,VARSR所采用的基模型展现了较强的生成能力。
三、实验结果
我们在DIV2K、RealSR、DRealSR等多个标准数据集上对VARSR进行评估,并与GAN-based和diffusion-based代表方法进行对比。表1和图5结果表明:
在无参考IQA指标(MANIQA、CLIPIQA、MUSIQ)上,VARSR在所有数据集均取得绝对领先成绩,说明其生成结果更符合人类视觉偏好。
在参考指标(PSNR、SSIM、DISTS)方面,VARSR在保证视觉效果的同时也保持了高还原性,尤其在真实数据集上超越多数扩散方法。
VARSR仅需10次尺度级自回归推理,实现单张图像推理耗时0.59秒,为主流扩散方法的10.1%,显著提升实际部署可行性。
在多组对比图中,VARSR能够准确还原目标结构(如交通灯颜色、建筑纹理、动物毛发),表现出强大的结构理解和语义建模能力。
表1:VARSR与GAN-based和Diffusion-based算法效果对比
图5:VARSR与其他超分算法的主观画质对比
四、总结与展望
在本篇论文中,我们提出了一种基于自回归生成方式的图像超分算法。通过引入prefix token的状态信息融合方式、尺度对齐旋转位置编码、VQ量化误差矫正、图像质量感知引导和大规模高质数据训练,VARSR在主客观指标上取得了业界领先的效果,持续为快手视频处理体系(Kuaishou Enhancement Processing,KEP & Large Processing Model,LPM)提供算法支持。
目前,快手视频处理体系已应用在内部多个业务场景,如快手视频清晰度提升、基于内容的自适应处理和编码等。通过提升画质清晰度,用户在观看过程中,增强对内容的理解,拥有沉浸式体验。长期以来,快手音视频技术团队深耕视频处理算法领域,以创新驱动技术探索,期待在更多领域发挥落地应用,推动行业发展。
参考文献:
[1] Real-ESRGAN: Training Real-world Blind Super-resolution with Pure Synthetic Data, ICCV workshop 2021
[2] Efficient and Degradation Adaptive Network for Real-world Image Super-resolution, ECCV 2022
[3] SeeSR: Towards Semantics-aware Real-world Image Super-resolution, CVPR 2024
[4] XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution, ECCV 2024
[5] Autoregressive Models in Vision: A Survey, TMLR 2025
[6] Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction, NeurIPS 2025
[7] Neural Discrete Representation Learning, NIPS 2017