当前位置: 首页 > news >正文

【大模型系列】gpt-oss系列模型初探

1. 背景

        前一周,大模型领域很热闹,Qwen-235B和GLM-4.5陆续推出,模型能力都非常不错,GLM-4.5更是霸榜开源大模型第一。

        2025年8月5日Open AI也坐不住了,开源了gpt-oss系列模型【1】。他们发布了 gpt-oss-120b 和 gpt-oss-20b——两款性能不错的开源轻量级语言模型,能够在低成本环境下实现强大的实际应用表现。gpt-oss-120B vs GLM-4.5: Model Comparison做了gpt-120b与glm-4.5的对比。

        现在的大模型,经过DeepSeek浪潮之后,不约而同都选择了MOE架构。

        这两款模型,在同等规模的开源模型中展现出更优的推理能力,具备出色的工具使用功能,并针对消费级硬件上的高效部署进行了优化。其训练融合了强化学习技术与受 OpenAI 最先进内部模型(包括 o3 及其他前沿系统)启发的方法。

        据报告,gpt-oss-120b 在核心推理基准测试中的表现接近 OpenAI 的 o4-mini 模型,同时可在单个 80GB GPU 上高效运行;而 gpt-oss-20b 在常见基准测试中与 OpenAI 的 o3-mini 模型水平相当,且仅需 16GB 内存即可在边缘设备上运行,使其成为设备端应用、本地推理或低资源快速迭代的理想选择。两款模型在工具调用、少样本函数执行、思维链推理(CoT)以及 HealthBench 测试中均表现强劲,部分结果甚至优于 OpenAI o1 和 GPT-4o 等专有模型。

        model card【2】给出了两个模型在不同推理水平上的准确性差异。        

        这些模型与其回复 API⁠兼容,专为智能体工作流设计,具备出色的指令执行能力、工具集成能力(如网页搜索和 Python 代码执行)以及灵活的推理能力,可根据任务需求动态调整推理强度,尤其适用于对延迟敏感或无需深度推理的场景。模型支持完整的思维链输出和结构化输出⁠,并允许用户进行深度定制。

        安全被视作模型发布的核心原则,尤其是在开源背景下更为重要。除常规的安全训练与评估外,他们还引入了额外的评估层级:通过测试一个经过对抗性微调的 gpt-oss-120b 版本,在其《防范准备框架》⁠下验证模型的安全性。结果显示,gpt-oss 系列模型在内部安全基准上的表现与其最先进的闭源模型相当,为开发者提供了与近期专有模型同等的安全保障。

2. 模型介绍

        他们介绍了 gpt-oss 模型的预训练方法与模型架构。这些模型采用了其最先进的预训练和后训练技术,重点优化了推理能力、运行效率以及在多种部署环境下的实用性。尽管他们此前已开源了如 Whisper⁠ 和 CLIP⁠ 等模型,但 gpt-oss 系列是自 GPT‑2以来首次发布的开放大型语言模型。

        每个 gpt-oss 模型均基于 Transformer 架构,并引入了专家混合机制(MoE),以降低处理输入时所需的激活参数数量,从而提升计算效率。其中,gpt-oss-120b 在每个令牌处理过程中激活 51 亿参数,总参数量达 1,170 亿;gpt-oss-20b 则激活 36 亿参数,总参数量为 210 亿。模型采用了交替的密集注意力与局部带状稀疏注意力结构,设计上与 GPT‑3 相似。为进一步提升推理速度和内存使用效率,模型还集成了分组多查询注意力机制,分组大小为 8。

        在位置编码方面,他们采用了旋转位置嵌入(RoPE),并原生支持最长 128k 的上下文长度,适用于长文本处理任务。模型的训练基于一个高质量、以英文为主的纯文本数据集,重点覆盖 STEM、编程以及通用知识领域。在数据令牌化过程中,使用了名为 ‘o200k_harmony’ 的分词器,该分词器是 OpenAI o4-mini 和 GPT‑4o 所用分词器的超集,他们也于同日将其开源。

        gpt-oss 采用了与 OpenAI o4-mini 类似的后训练流程,包括监督式微调阶段以及高计算量的强化学习阶段。其主要目标是使模型符合《OpenAI 模型规范》⁠,并具备在生成回答前主动应用思维链(CoT)推理和工具使用的能力。通过借鉴其最先进的专有推理模型所使用的技术,这些开源模型在完成训练后展现出优异的综合性能。

        与 OpenAI o 系列推理模型在 API 中的实现方式类似,gpt-oss-120b 和 gpt-oss-20b 支持三种可调节的推理强度——低、中、高,允许在响应延迟与推理质量之间进行灵活权衡。开发者可通过在系统消息中添加简短指令,轻松设定所需的推理难度。

3. 模型评测

        在评估方面,他们对 gpt-oss-120b 和 gpt-oss-20b 在多个标准学术基准上进行了测试,涵盖编程、竞赛数学、医疗问答以及智能体工具使用能力,并与 OpenAI 的多个推理模型(包括 o3、o3-mini 和 o4-mini)进行了对比。

        

        评估结果显示,gpt-oss-120b 在竞赛编程(Codeforces)、通用知识问答(MMLU 和 HLE)以及工具调用能力(TauBench)方面优于 o3-mini,表现与 o4-mini 相当甚至更优。此外,它在健康领域任务(HealthBench⁠)和竞赛数学(AIME 2024 与 2025)上的表现也超过了 o4-mini。尽管 gpt-oss-20b 规模较小,但在相同测试中仍达到了与 o3-mini 相当或更优的水平,尤其在竞赛数学和医疗任务中表现突出。

       还有一份更详细的但比较模糊的对比报告,哈哈,先让子弹飞一会【3】。

4. 模型试用

        不得不说,激活参数只有5.1B的时候,性能是杠杠的,推理速度非常快!可以在gpt-oss playground【4】进行试用。

    说实话,推理链中出现一些奇怪的描述,还挺有意思:

    

5. 参考材料

【1】https://huggingface.co/blog/welcome-openai-gpt-oss

【2】gpt-oss model card

【3】gpt-oss from 赛博禅心

【4】gpt-oss

http://www.lryc.cn/news/611917.html

相关文章:

  • 前端UI组件库
  • WMS及UI渲染底层原理学习
  • ROG 掌机 X:便携游戏新宠,开启微观生存冒险
  • JAVA 程序员cursor 和idea 结合编程
  • OpenAI最新开源:GPT-OSS原理与实践
  • 需求如何映射到开发计划中
  • 江协科技STM32 15-1 FLASH闪存
  • Unity模型显示在UI上
  • IDS知识点
  • 在ubuntu上使用jenkins部署.net8程序
  • 【网络安全】入侵检测系统 Suricata 概述 | IDS
  • DHCP 服务器与DNS服务器
  • 如何将照片从POCO手机传输到Mac电脑
  • Linux基础命令的生产常用命令及其示例简单解释
  • Mac 洪泛攻击笔记总结补充
  • Vue2中实现数据复制到 Excel
  • OceanBase DBA实战营2期--自动分区分裂学习笔记
  • 虚幻GAS底层原理解剖四 (TAG)
  • 《爬虫实战指南:轻松获取店铺详情,开启数据挖掘之旅》
  • Adobe Analytics 数据分析平台|全渠道客户行为分析与体验优化
  • 时隔六年!OpenAI 首发 GPT-OSS 120B / 20B 开源模型:性能、安全与授权细节全解
  • 【WAIC 2025】AI安全的攻防前线:合合信息AI鉴伪检测技术
  • 算法训练营DAY55 第十一章:图论part05
  • 支持向量机(SVM)算法依赖的数学知识详解
  • 非机动车识别mAP↑28%!陌讯多模态融合算法在智慧交通的实战解析
  • Unity里的对象旋转数值跳转问题的原理与解决方案
  • Linux《进程间通信(上)》
  • Android 之 Kotlin中的符号
  • Linux---第二天---基础指令
  • 基于Python的超声波OFDM数字通信链路设计与实现