当前位置：首页 > news >正文

自回归图像生成新突破！140亿参数自回归模型NextStep-1开源，图像生成无需扩散模型

news 2025/8/19 14:23:50

最近，阶跃星辰于正式推出 NextStep-1 自回归图像生成模型，该模型在权威测评中以 87.6% 的真人偏好率刷新行业纪录。相较于当前主流模型 SDXL，其图像生成错误率显著降低 62%，并同步实现像素级指令编辑能力，标志着其成为自回归模型领域首个达到 SOTA 水平的模型。

传统自回归图像模型的核心矛盾在于：如何将高维图像转化为模型可处理的“令牌”？多数方案采用矢量量化（VQ）技术，将图像压缩为离散的视觉令牌，但这一过程不可避免造成信息损失，导致生成图像模糊或失真。NextStep-1 的突破在于——不依赖离散化。

技术架构层面，NextStep-1 创新采用 14B 参数 Transformer 主干与 157M 轻量级流匹配头的双模块设计。核心突破来源于连续视觉空间生成技术，通过新型图像 tokenizer 将图像编码为 16 通道连续表示，使用该架构，模型规避了传统 VQ 模型的量化损失。

其中通道归一化技术的应用，使高维隐空间训练稳定性提升 300%，为高质量输出奠定基础。模型同时引入流匹配目标优化策略，仅需轻量级MLP结构即可预测图像块速度向量，实现 patch-by-patch 精准生成。

多模态统一序列的构建方案进一步强化了文本与图像的协同，采用<image_area>h w <boi>{image}<eoi>格式将异构数据整合为单一序列，使语言建模头与流匹配头得以并行计算损失。

架构上，NextStep-1 采用统一的自回归框架，将离散文本令牌与连续图像令牌混合成单一序列建模，核心组件包括：

主干模型：140 亿参数的因果 Transformer，负责整体序列建模；
双头输出：文本分支采用标准语言模型（LM）头部预测下一个词，视觉分支通过轻量级流匹配头（Flow Matching Head，1.57亿参数）预测图像块的连续流。

训练策略采用预训练+后训练的三阶段优化，以平衡质量与可控性：

预训练：采用三阶段课程学习，逐步提升模型能力，在大规模图文对数据上学习基础生成能力；
监督微调（SFT）：使用高质量标注数据提升指令遵循与细节表现；
直接偏好优化（DPO）：对齐人类审美偏好，提升生成结果的自然度与可用性。

这一流程确保模型不仅能生成，更能“生成得好”。

在权威基准测试中，NextStep-1 在多个领域展现出领先性能：

在文本到图像生成能力方面，该模型的 WISE 基准得分 0.54，GenAI-Bench 基础提示得分为 0.88，进阶提示得分 0.67，超越 Emu3 等自回归模型：

图像编辑能力：GEdit-Bench 英文评分 6.58，ImgEdit-Bench 评分 3.71，媲美专业编辑模型。

跨模态理解：OneIG-Bench 综合得分 0.417，在对齐性、风格控制等维度表现均衡。

目前，阶跃星辰（StepFun）团队已公开其代码和模型资源。而面对千亿级 token 训练需求对高分辨率拓展的制约，视频生成版本 NextStep-V 已完成内部测试，计划本季度末开放企业 API接口。

NextStep-1 的发布，不仅是阶跃星辰在多模态生成领域的一次技术突围，更验证了自回归模型在视觉任务中的潜力。

随着社区参与与技术迭代，自回归模型或许有望在图像生成领域开辟更广阔的天地。

查看全文

http://www.lryc.cn/news/625113.html

基于SFM的三维重建MATLAB程序

MBTI职业规划指南：发掘你的人格潜能，照亮职业发展之路

Elasticsearch查询中的track_total_hits参数

力扣hot100:移动零问题的巧妙解决：双指针与原地交换策略(283)

构建高效智能语音代理：技术架构、实现细节与API服务推荐

电商API接口实录对接：1688混批价格函数处理

python DataFrame基础操作

烟草行政处罚案卷制作与评查平台被中国信通院认定为2025年商业产品及企业典型案例

第一阶段C#基础-13：索引器，接口，泛型

AI出题人给出的Java后端面经（十八）（日更）

什么是系统设计

电竞酒店和高校宿舍对AI云电竞游戏盒子的需求有什么不同？

从虚拟到现实：数字孪生赋能智能制造

docker部署flask并迁移至内网

前端面试通关：Cesium+Three+React优化+TypeScript实战+ECharts性能方案

css word-pass

强化学习-CH2 状态价值和贝尔曼等式

【新手易混】find 命令中 -perm 选项的知识点

Unity2022打包安卓报错的奇葩问题

云原生俱乐部-docker知识点归纳（1）

2-4〔O҉S҉C҉P҉ ◈ 研记〕❘ 漏洞扫描▸AWVS（WEB扫描）

PyTorch数据处理工具箱详解｜深入理解torchvision与torch.utils.data

嵌入式设备Lwip协议栈实现功能

28、企业安防管理（Security）体系构建：从生产安全到日常安保的全方位防护

如何将 LM Studio 与 ONLYOFFICE 结合使用，实现安全的本地 AI 文档编辑

相关文章：