当前位置: 首页 > news >正文

论文阅读笔记——Autoregressive Image Generation without Vector Quantization

MAR 论文
基于 VQ(向量量化)的图像生成方法具有显著优势,它通过离散化压缩将原始图像映射到有限的 codebook 空间,从而缩小学习范围、降低建模难度,同时这种离散表示更易于与自回归(AG)生成方式结合,提升多模态任务(如文本到图像生成)的融合能力;然而,该方法也存在明显局限性,包括训练难度较高(容易导致codebook利用率不足,仅部分编码参与计算,严重制约模型表达能力)、解码重建质量欠佳等问题,其根本原因在于VQ本质上是一种有损压缩方式,不可避免会丢失部分信息。
在这里插入图片描述
本文的核心创新点在于彻底摒弃了传统VQ(向量量化)方法,直接进行自回归图像生成。作者提出关键观点:在自回归学习框架下,预测下一个 token x 时,离散化表征并非必要条件——若允许 x 保持连续性,则 VQ 机制自然失去存在价值。为实现这一目标,论文创新性地采用扩散模型(diffusion)的损失函数替代传统的交叉熵损失,从而将x建模为连续概率分布而非离散符号。这一转变不仅绕过了 VQ 带来的信息损失问题,更通过连续空间的建模提升了生成质量。
在这里插入图片描述
当前主流的大语言模型(LLM)普遍采用单向Causal Attention机制,这确实符合语言生成的序列特性(当前词只依赖历史信息)。然而,在图像生成领域,双向Attention可能更具优势——与语言中词与词的线性依赖不同,图像中的像素或patch往往与其周围区域存在空间上的相互影响。通过双向Attention建模这种全局上下文关系,理论上可以更自然地捕捉图像的空间结构特征,同时仍能保持自回归生成的特性(通过适当的掩码机制实现)。这种改进既保留了自回归的序列生成优势,又弥补了单向Attention对图像空间关系建模的不足。

传统的自回归图像生成通常采用固定的序列顺序(如从左到右、从上到下逐行生成图像块),如图(a)所示。然而,本文提出这种固定顺序的生成方式并非最优解。受掩码语言模型(MLM)的启发,论文创新性地提出 掩码自回归(Masked Autoregressive, MAR) 方法——如图(b)所示,模型可以随机选择生成任意位置的图像块,而无需遵循预设顺序。这种灵活生成方式带来两个关键优势:首先,它突破了传统自回归模型的顺序限制,使生成过程更符合图像的空间特性;其次,如图©所示,MAR支持同时预测多个被掩码的图像块,从而显著提升解码速度。这一设计在保持自回归建模优势的同时,实现了更高效的并行化生成。

实验

在这里插入图片描述
(1)在自回归中,用diff loss代替 CE loss,效果都是有提升,说明了diff loss的有效;
(2)在AR下(第一行),diff loss相比 CE loss提升的并不明显,当切换成论文提出的MAR形式,这个提升优势就愈加明显。
(3)在MAR_default(masked AR,就是上述©图形式)下,表现最好,而且即是是CE loss,也是相比之前的变体,也是又很明显的提升,说明masked AR在图像任务的有效性。

http://www.lryc.cn/news/579660.html

相关文章:

  • 构建引擎: 打造小程序编译器
  • 工业路由器赋能智慧电力储能柜实时通讯,构建电力智能化新生态
  • x搜索新增了x-client-transaction-id的验证
  • 网络工具如何帮助消除网络安全风险
  • 通达信 主力资金与成交量分析系统 幅图
  • 机器学习-03(机器学习任务攻略)
  • 边缘计算解决方案:数据中心机房IT设备数据采集与调优
  • STM32-PWM驱动无源蜂鸣器
  • 使用numpy的快速傅里叶变换的一些问题
  • AI+软件测试——03软件的缺陷及管理
  • 一、Docker:一场颠覆应用部署与运维的容器革命
  • 数学建模_时间序列
  • 月更!2025年7月鼠标入门及选购推荐(含无线鼠标、游戏鼠标)
  • 百度文心大模型 4.5 系列全面开源 英特尔同步支持端侧部署
  • 两个PHY芯片之间,是如何连接进行通信的?
  • Python Pytest-Benchmark详解:精准性能测试的利器
  • 两个手机都用同个wifi,IP地址会一样吗?如何更改ip地址
  • 禁止ifrmare标签上的文件,实现自动下载功能,并且隐藏工具栏
  • 搭建VirtualBox-6+vagrant_2+docker+mysql5.7的步骤
  • 代码随想录算法训练营第四十四天|动态规划part11
  • 人形机器人九大发展趋势预判
  • EXCEL动态表格
  • Python 爬虫实战 | 国家医保
  • 【字节跳动】数据挖掘面试题0007:Kmeans原理,何时停止迭代
  • 深度解析:Java内部类与外部类的交互机制
  • BitsAndBytesConfig量化及注意事项
  • Mysql锁机制与优化实践以及MVCC底层原理剖析
  • Unity单元测试框架在keil环境下的移植教程
  • Unity3D 文件夹注释工具
  • CTF Web的数组巧用