当前位置: 首页 > news >正文

【基座模型】Qwen3报告总结

Github: Qwen3

数据

1、预训练数据

(1)扩展语言类型和数据领域种类。
(2)数据合成:使用Qwen2.5-Vl合成读取PDF文件数据、使用Qwen2.5-math和Qwen2.5-coder合成数学想代码相关数据。

2、后训练数据

(1)长COT冷启动数据:
包含数学、代码、逻辑推理、通用STEM问题等,每个query都配备一个可验证的参考单或者基于代码的测试用例。排除了难验证(涉及多个子问题或者通用文本生成能力)和不需要COT就可以回答的问题。
(2)RL推理数据
收集3995个在冷启动没有出现过的覆盖范围广泛的数据。
(3)思考融合
构建non-thinking的SFT数据,将非思考模式融入进去。使用长思考和短思考SFT数据共共同训练。其中思考数据是使用第二阶段模型,对第一阶段模型拒采样得到。短思考数据涉及多个领域,例如:代码、数学、指令遵循、多语言、创意写作等等。设置了/think和/no_think作为模式切换标记。
(4)通用RL场景
提升通用场景泛化能力,建立了20多项不同的任务以及评分标准。主要增强:指令遵循能力、格式遵循能力、偏好对其、Agent调用工具能力、特定场景能力。

模型架构

1、模型架构集成Qwen2.5的MOE架构,不同的是设置了独立MoE模型共有128位专家,每个token有8位激活专家,而不是像Qwen2.5那样的共享专家。

训练

1、预训练

(1)第一阶段,该模型在大约30万亿个令牌上进行训练,以建立一个强大的通用知识基础,4096token长度。
(2)第二阶段,它将进一步接受知识密集型数据的训练,以增强科学、技术、工程和数学和编码等领域的推理能力,4096token长度。
(3)第三阶段,该模型在长上下文数据上进行训练,以将其最大上下文长度从4,096增加到32,768个令牌。3/4是长token,1/4是短token。

2、后训练

(1)培养思考能力:
第一个阶段使用Long-COT作为冷启动数据微调。第二步使用RL在数学和代码任务微调。GRPO时候,使用大批量和每个查询的多rollout,以及off-policy训练来提高样本效率,对训练过程是有益的。
(2)整合短思考模式到模型中:
第三步使用长COT和短COT的SFT数据,一起微调保持可具备长短COT的能力。第四步在通用任务上RL,保持通用泛化能力

3、蒸馏小模型

分别使用大模型离线和在线方式蒸馏给小模型效果比RL更好。

http://www.lryc.cn/news/592475.html

相关文章:

  • OpenTelemetry学习笔记(四):OpenTelemetry 语义约定,即字段映射(1)
  • 二、Dify 版本升级教程(LInux-openeuler)
  • 软件维护全维度解析:从修复到进化的生命周期管理
  • linux制作镜像、压缩镜像、烧录的方法
  • iOS 数据持久化
  • iOS 文件深度调试实战 查看用户文件 App 沙盒 系统文件与日志全指南
  • SpringAI核心特性与Prompt工程
  • SQLite 数据库字段类型-详细说明,数据类型详细说明。
  • VMware安装Win10教程(附安装包)虚拟机下载详细安装图文教程
  • 小程序常用api
  • PDF 拆分合并PDFSam:开源免费 多文件合并 + 按页码拆分 本地处理
  • 20250718-2-Kubernetes 应用程序生命周期管理-Pod对象:基本概念(豌豆荚)_笔记
  • Fiori 初学记录 官网 https://sapui5.hana.ondemand.com/ Samples 练习记录
  • springCloud -- 微服务01
  • 信息检索革命:Perplexica+cpolar打造你的专属智能搜索中枢
  • [simdjson] 填充字符串 | `document` 对象 | on-demand 模式
  • AI(day10)模块化编程概念(模块、包、导入)及常见系统模块总结和第三方模块管理
  • 全球天气预报5天(经纬度版)免费API接口教程
  • JavaScript进阶篇——第九章 异常、this 与性能优化全解(终)
  • Agentic AI引领人力资源新范式:易路的技术进化与行业实践
  • Proto文件从入门到精通——现代分布式系统通信的基石(含实战案例)
  • IDEA插件离线安装
  • 手撕Spring底层系列之:Bean的生命周期
  • Diffusion-VLA 中的 Reasoning Token 注入机制解析:语言推理如何控制扩散模型?
  • 51c视觉~合集13
  • 第三章-提示词-初级:一文带你入门提示词工程,开启AI高效交互之旅(11/36)
  • ARCS系统机器视觉实战(直播回放)
  • TapData 出席 2025 MongoDB 用户大会新加坡站,分享构建实时统一数据平台最佳实践
  • Vue3 中使用 Element Plus 实现自定义按钮的 ElNotification 提示框
  • Django母婴商城项目实践(五)