当前位置: 首页 > news >正文

联合理解生成的关键拼图?腾讯发布X-Omni:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

本论文作者团队来自腾讯混元X组,共同一作为耿子钢和王逸冰,项目Lead为张小松,通讯作者为腾讯混元团队杰出科学家胡瀚,Swin Transformer作者。

在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。然而,当这一范式被应用于视觉领域时,却暴露出诸多瓶颈:生成图像细节失真、语义理解偏差,尤其在复杂文本渲染任务中表现尤为乏力。目前,统一视觉理解和生成的主流研究工作在图像生成部分往往采用扩散模型来建模,使得视觉理解和生成任务依然只是松散的耦合在一起。

近日,腾讯混元团队的最新研究成果 X-Omni 模型通过强化学习大幅提升了自回归图像生成方法的生成质量,这一模型能生成具有较高美学品质的图像,同时展现出强大的遵循指令和渲染长文本图像的能力。该模型已开源:

  • 论文链接:https://arxiv.org/pdf/2507.22058

  • GitHub链接:https://github.com/X-Omni-Team/X-Omni

  • 项目主页:https://x-omni-team.github.io

  • Hugging Face 模型:https://huggingface.co/collections/X-Omni/x-omni-models-6888aadcc54baad7997d7982

  • Hugging Face Space:https://huggingface.co/collections/X-Omni/x-omni-spaces-6888c64f38446f1efc402de7

强化学习大幅提升——图像生成质量和指令遵循能力

基于离散自回归方法监督微调后图像生成的质量相对较低,表现为文本生成错误、身体特征失真以及无法遵循复杂指令。引入强化学习后,生成图像的审美质量逐渐提高,遵循指令的能力和渲染长文本的能力稳步提升。如图 2 所示,经过 200 步强化学习,X-Omni 模型展示了图像生成的高质量视觉效果、强大的遵循复杂指令的能力,以及准确渲染中英文长文本的能力。

奖励系统

我们构建了一个综合性的奖励模型系统,其包含多个专门的模型,从人类美学偏好、文本 - 图像语义对齐以及文本渲染准确性等维度来评估图像生成质量。最终奖励分数通过各个奖励信号的加权融合得出。

  • 人类偏好分数:采用 HPSv2 模型评估人类美学偏好。该模型在多种图像分布上均表现出优异的泛化能力,能够可靠地预测人类对生成图像的偏好排序。

  • Unified Reward 分数:引入 Unified Reward 对图像进行整体质量评估。该奖励函数将多维度质量指标聚合为一个统一的分数,为强化学习提供整体反馈。

  • 文本 - 图像语义对齐分数:为确保输入提示和生成图像间的语义一致性,我们利用 Qwen2.5-VL-32B 来计算对齐奖励。借助该模型强大的图像理解能力,我们评估生成图像是否准确反映了提示描述的内容。对齐分数量化了文本描述和视觉内容之间的对应关系,鼓励生成与上下文相关的图像,同时最大限度地减少语义幻觉。

  • OCR 准确性分数:文本渲染准确性是文本到图像生成中的一个关键挑战。对于需要在图像中生成文本的提示,我们联合 GOT-OCR 2.0 与 PaddleOCR 对生成图像进行双重 OCR 解析,计算文本渲染的准确性分数。该奖励信号为增强文本渲染能力提供了关键指导,使我们的模型能够可靠地生成清晰准确的文本。

http://www.lryc.cn/news/615950.html

相关文章:

  • 如何部署图床系统 完整教程
  • ESP32安装于配置
  • Oracle 19C 查看卡慢的解决思路
  • AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年8月10日第159弹
  • Spring Boot 注解详解:@RequestMapping 的多种用法
  • 第4章 程序段的反复执行4 多重循环练习(题及答案)
  • RAGFlow 拉取 Docker 镜像失败
  • 压力测试等工具源码包编译及使用方法
  • 基于python高校固定资产管理系统
  • 【银行测试】保险项目测试点+测试流程详情(二)
  • scanpy单细胞转录组python教程(一):不同形式数据读取
  • java报错“ NoSuchMethodError:com.test.Service.doRoomList(Ljava/lang/String;)V解决方案
  • Gin 框架错误处理机制详解
  • 线性代数1000题学习笔记
  • 如何将PDF文档进行高效编辑处理!
  • NLP学习开始-02逻辑回归
  • 【Spring IoC 核心实现类详解:DefaultListableBeanFactory】
  • 从策略梯度到 PPO
  • Linux权限管理终极指南(用户身份与文件权限
  • Python中的 __name__
  • 计算机视觉(CV)——pytorch张量基本使用
  • imx6ull-驱动开发篇17——linux原子操作实验
  • docker等基础工具使用
  • 个人笔记Mybatis2
  • 第一章 概述
  • 快速了解DBSCAN算法
  • reinterpret_cast and static cast
  • Docker实战:为项目打造即开即用的宝塔LNMP环境
  • redis集群-docker环境
  • 【从源码角度深度理解 CPython 的垃圾回收机制】:第2课循环引用:标记清除-分代回收