当前位置: 首页 > news >正文

自回归图像生成新突破!140亿参数自回归模型NextStep-1开源,图像生成无需扩散模型

最近,阶跃星辰于正式推出 NextStep-1 自回归图像生成模型,该模型在权威测评中以 87.6% 的真人偏好率刷新行业纪录。相较于当前主流模型 SDXL,其图像生成错误率显著降低 62%,并同步实现像素级指令编辑能力,标志着成为自回归模型领域首个达到 SOTA 水平的模型

图片

传统自回归图像模型核心矛盾在于:如何将高维图像转化为模型可处理的令牌?多数方案采用矢量量化(VQ)技术,将图像压缩为离散的视觉令牌,但这一过程不可避免造成信息损失,导致生成图像模糊或失真。NextStep-1 的突破在于——不依赖离散化。

技术架构层面,NextStep-1 创新采用 14B 参数 Transformer 主干与 157M 轻量级流匹配头的双模块设计。核心突破来源于连续视觉空间生成技术,通过新型图像 tokenizer 将图像编码为 16 通道连续表示,使用该架构,模型规避了传统 VQ 模型的量化损失。

图片

其中通道归一化技术的应用,使高维隐空间训练稳定性提升 300%,为高质量输出奠定基础。模型同时引入流匹配目标优化策略,仅需轻量级MLP结构即可预测图像块速度向量,实现 patch-by-patch 精准生成。

多模态统一序列的构建方案进一步强化了文本与图像的协同,采用<image_area>h  w <boi>{image}<eoi>格式将异构数据整合为单一序列,使语言建模头与流匹配头得以并行计算损失。

架构上,NextStep-1 采用统一的自回归框架,将离散文本令牌与连续图像令牌混合成单一序列建模,核心组件包括:

  • 主干模型140 亿参数的因果 Transformer,负责整体序列建模;

  • 双头输出:文本分支采用标准语言模型(LM)头部预测下一个词,视觉分支通过轻量级流匹配头(Flow Matching Head1.57亿参数)预测图像块的连续流。

训练策略采用预训练+后训练的三阶段优化,平衡质量与可控性

  • 预训练:采用三阶段课程学习,逐步提升模型能力,在大规模图文对数据上学习基础生成能力;

  • 监督微调SFT):使用高质量标注数据提升指令遵循与细节表现;

  • 直接偏好优化DPO):对齐人类审美偏好,提升生成结果的自然度与可用性。

    图片

这一流程确保模型不仅能生成,更能生成得好

在权威基准测试中,NextStep-1 在多个领域展现出领先性能:

在文本到图像生成能力方面,该模型的 WISE 基准得分 0.54,GenAI-Bench 基础提示得分为 0.88,进阶提示得分 0.67,超越 Emu3 等自回归模型:

图片

图像编辑能力:GEdit-Bench 英文评分 6.58,ImgEdit-Bench 评分 3.71,媲美专业编辑模型。

图片

跨模态理解:OneIG-Bench 综合得分 0.417,在对齐性、风格控制等维度表现均衡。

图片

目前,阶跃星辰(StepFun)团队已公开其代码和模型资源。而面对千亿级 token 训练需求对高分辨率拓展的制约,视频生成版本 NextStep-V 已完成内部测试,计划本季度末开放企业 API接口。

NextStep-1 的发布,不仅是阶跃星辰在多模态生成领域的一次技术突围,更验证了自回归模型在视觉任务中的潜力。

随着社区参与与技术迭代,自回归模型或许有望在图像生成领域开辟更广阔的天地。

http://www.lryc.cn/news/625113.html

相关文章:

  • 基于SFM的三维重建MATLAB程序
  • MBTI职业规划指南:发掘你的人格潜能,照亮职业发展之路
  • Elasticsearch查询中的track_total_hits参数
  • 力扣hot100:移动零问题的巧妙解决:双指针与原地交换策略(283)
  • 构建高效智能语音代理:技术架构、实现细节与API服务推荐
  • shell脚本第一阶段
  • Linux命令大全-rm命令
  • 音频算法工程师技能1
  • Docker常见指令速查
  • mq存量消息如何处理
  • 电商API接口实录对接:1688混批价格函数处理
  • python DataFrame基础操作
  • 烟草行政处罚案卷制作与评查平台被中国信通院认定为2025年商业产品及企业典型案例
  • 第一阶段C#基础-13:索引器,接口,泛型
  • AI出题人给出的Java后端面经(十八)(日更)
  • 什么是系统设计
  • 电竞酒店和高校宿舍对AI云电竞游戏盒子的需求有什么不同?
  • 从虚拟到现实:数字孪生赋能智能制造
  • docker部署flask并迁移至内网
  • 前端面试通关:Cesium+Three+React优化+TypeScript实战+ECharts性能方案
  • css word-pass
  • 强化学习-CH2 状态价值和贝尔曼等式
  • 【新手易混】find 命令中 -perm 选项的知识点
  • Unity2022打包安卓报错的奇葩问题
  • 云原生俱乐部-docker知识点归纳(1)
  • 2-4〔O҉S҉C҉P҉ ◈ 研记〕❘ 漏洞扫描▸AWVS(WEB扫描)
  • PyTorch数据处理工具箱详解|深入理解torchvision与torch.utils.data
  • 嵌入式设备Lwip协议栈实现功能
  • 28、企业安防管理(Security)体系构建:从生产安全到日常安保的全方位防护
  • 如何将 LM Studio 与 ONLYOFFICE 结合使用,实现安全的本地 AI 文档编辑