当前位置: 首页 > news >正文

论文阅读:2025 arxiv Qwen3 Technical Report

https://arxiv.org/pdf/2505.09388

https://www.doubao.com/chat/9918384373236738

在这里插入图片描述

文章目录

  • 论文翻译
    • Qwen3技术报告
    • 摘要
    • 1 引言

论文翻译

Qwen3技术报告

Qwen团队

摘要

在这项工作中,我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型(LLM),旨在提升性能、效率和多语言能力。Qwen3系列包括密集型和混合专家(MoE)架构的模型,参数规模从6亿到2350亿不等。Qwen3的一个关键创新是将思考模式(用于复杂的多步推理)和非思考模式(用于快速的上下文驱动响应)集成到一个统一框架中。这消除了在不同模型之间切换的需要,例如聊天优化模型(如GPT-4o)和专用推理模型(如QwQ32B),并支持根据用户查询或聊天模板动态切换模式。同时,Qwen3引入了思考预算机制,允许用户在推理过程中自适应分配计算资源,从而根据任务复杂度平衡延迟和性能。此外,通过利用旗舰模型的知识,我们显著减少了构建较小规模模型所需的计算资源,同时确保它们具有极具竞争力的性能。实证评估表明,Qwen3在各种基准测试中均取得了最先进的结果,包括代码生成、数学推理、代理任务等,可与更大的MoE模型和专有模型相媲美。与前作Qwen2.5相比,Qwen3将多语言支持从29种扩展到119种语言和方言,通过改进的跨语言理解和生成能力增强了全球可访问性。为促进可重复性和社区驱动的研究与开发,所有Qwen3模型均在Apache 2.0许可下公开提供。

1 引言

追求通用人工智能(AGI)或人工超级智能(ASI)长期以来一直是人类的目标。大型基础模型的最新进展,如GPT-4o(OpenAI,2024)、Claude 3.7(Anthropic,2025)、Gemini 2.5(DeepMind,2025)、DeepSeek-V3(Liu等人,2024a)、Llama-4(Meta-AI,2025)和Qwen2.5(Yang等人,2024b),已在实现这一目标方面取得了显著进展。

这些模型在跨越数万亿tokens的庞大数据集上进行训练,涵盖不同领域和任务,有效地将人类知识和能力提炼到其参数中。此外,通过强化学习优化的推理模型的最新发展,突显了基础模型增强推理时缩放和实现更高智能水平的潜力,例如o3(OpenAI,2025)、DeepSeek-R1(Guo等人,2025)。尽管大多数最先进的模型仍然是专有的,但开源社区的快速发展已大幅缩小了开放权重和闭源模型之间的性能差距。值得注意的是,越来越多的顶级模型(Meta-AI,2025;Liu等人,2024a;Guo等人,2025;Yang等人,2024b)现在以开源形式发布,促进了人工智能领域更广泛的研究和创新。

在这项工作中,我们介绍了Qwen基础模型家族的最新系列Qwen3。Qwen3是一组开放权重的大型语言模型(LLM),在各种各样的任务和领域中均取得了最先进的性能。我们同时发布了密集型和混合专家(MoE)模型,参数数量从6亿到2350亿不等,以满足不同下游应用的需求。值得注意的是,旗舰模型Qwen3-235B-A22B是一个MoE模型,总参数为2350亿,每个token激活220亿参数。这种设计确保了高性能和高效推理。

Qwen3引入了几项关键进展以增强其功能和可用性。首先,它将两种不同的操作模式——思考模式和非思考模式——集成到单个模型中。这使用户无需在不同模型之间切换,例如从Qwen2.5切换到QwQ(Qwen团队,2024)。这种灵活性确保开发人员和用户能够有效地使模型的行为适应特定任务。此外,Qwen3融入了思考预算,为用户提供了对模型在任务执行期间应用的推理努力程度的细粒度控制。此功能对于计算资源和性能的优化至关重要,可使模型的思考行为适应现实应用中不同的复杂度。此外,Qwen3已在覆盖多达119种语言和方言的36万亿tokens上进行了预训练,有效增强了其多语言能力。这种扩展的语言支持放大了其在全球用例和国际应用中部署的潜力。这些进展共同使Qwen3成为一个前沿的开源大型语言模型家族,能够有效解决跨各种领域和语言的复杂任务。

Qwen3的预训练过程利用了一个由约36万亿tokens组成的大规模数据集,经过精心策划以确保语言和领域的多样性。为了高效扩展训练数据,我们采用了多模态方法:对Qwen2.5-VL(Bai等人,2025)进行微调,以从大量PDF文档中提取文本。我们还使用特定领域模型生成合成数据:用于数学内容的Qwen2.5-Math(Yang等人,2024c)和用于代码相关数据的Qwen2.5-Coder(Hui等人,2024)。预训练过程遵循三阶段策略。在第一阶段,模型在约30万亿tokens上进行训练,以构建强大的通用知识基础。在第二阶段,进一步在知识密集型数据上训练,以增强在科学、技术、工程和数学(STEM)及编码等领域的推理能力。最后,在第三阶段,模型在长上下文数据上训练,将其最大上下文长度从4096增加到32768 tokens。

为了使基础模型更好地与人类偏好和下游应用保持一致,我们采用了多阶段后训练方法,赋予思考(推理)和非思考模式能力。在前两个阶段,我们通过长思维链(CoT)冷启动微调和专注于数学和编码任务的强化学习,专注于发展强大的推理能力。在最后两个阶段,我们将有推理路径和无推理路径的数据合并到一个统一数据集中进行进一步微调,使模型能够有效处理这两种类型的输入,然后应用通用领域强化学习来提高跨广泛下游任务的性能。对于较小的模型,我们使用强到弱蒸馏,利用来自较大模型的离线和在线知识转移来增强其能力。来自高级教师模型的蒸馏在性能和训练效率上均显著优于强化学习。

我们在涵盖多个任务和领域的综合基准测试集上评估了模型的预训练和后训练版本。实验结果表明,我们的基础预训练模型取得了最先进的性能。后训练模型,无论是在思考模式还是非思考模式下,均能与领先的专有模型和大型混合专家(MoE)模型(如o1、o3-mini和DeepSeek-V3)竞争。值得注意的是,我们的模型在编码、数学和代理相关任务中表现出色。例如,旗舰模型Qwen3-235B-A22B在AIME’24上取得85.7分,在AIME’25(AIME,2025)上取得81.5分,在LiveCodeBench v5(Jain等人,2024)上取得70.7分,在CodeForces上取得2056分,在BFCL v3(Yan等人,2024)上取得70.8分。此外,Qwen3系列的其他模型相对于其规模也表现出强大的性能。此外,我们观察到,增加思考 tokens 的思考预算会导致模型在各种任务上的性能持续提升。

在接下来的部分中,我们将描述模型架构的设计,提供其训练过程的详细信息,呈现预训练和后训练模型的实验结果,最后通过总结关键发现和概述未来研究的潜在方向来结束本技术报告。

http://www.lryc.cn/news/574536.html

相关文章:

  • 【论文阅读 | CVPRW 2023 |CSSA :基于通道切换和空间注意力的多模态目标检测】
  • 【AI时代速通QT】第三节:Linux环境中安装QT并做测试调试
  • Starrocks 低基数全局字典优化
  • 【Vue】 keep-alive缓存组件实战指南
  • Dify携手代理商奇墨科技:加快企业AI应用构建
  • FTP原理、安装部署与案例应用全面指南
  • Unity3D下的RTSP/RTMP超低延迟直播播放器实践:跨平台、高性能与VR全景支持的完整解析
  • 创建首个 Spring Boot 登录项目
  • DD3118S:USB3.0+Type-c双头TF/SD二合一高速0TG多功能手机读卡器ic
  • 76、单元测试-参数化测试
  • 做上门私厨/上门做饭App小程序,到底是定制开发,还是选成品系统?
  • 随机森林详解:原理、优势与应用实践
  • 【空间数据分析】全局莫兰指数(Global Moran’s I)
  • 《C++》命名空间简述
  • 项目练习:使用itextpdf制作pdf报表
  • 电商场景BI解决方案:用观远BI捕获电商大促增长先机
  • (3)ROS2:6-dof前馈+PD / 阻抗控制器
  • 常见网络知识,宽带、路由器
  • UAVAI-YOLO:无人机航拍图像的小目标检测模型
  • NLP基础1_word-embedding
  • 桥头守望者
  • iostat中的util原理
  • OpenCV CUDA模块设备层-----检查 CUDA 错误并输出调试信息内联函数checkCudaError()
  • 【STM32】JTAG / SWD 调试原理简析
  • IN子查询与JOIN的区别理解
  • 数据赋能(319)——安全与合规——数据安全可控
  • 烟花爆竹生产企业库房存储安全风险预警系统
  • 前端如何让用户回到上次阅读的位置?
  • 医学数据分析实战:冠心病发病因素可视化
  • vue3+echarts实现tab切换多个图表