当前位置：首页 > news >正文

【大模型系列】gpt-oss系列模型初探

news 2025/8/7 8:26:45

1. 背景

前一周，大模型领域很热闹，Qwen-235B和GLM-4.5陆续推出，模型能力都非常不错，GLM-4.5更是霸榜开源大模型第一。

2025年8月5日Open AI也坐不住了，开源了gpt-oss系列模型【1】。他们发布了 gpt-oss-120b 和 gpt-oss-20b——两款性能不错的开源轻量级语言模型，能够在低成本环境下实现强大的实际应用表现。gpt-oss-120B vs GLM-4.5: Model Comparison做了gpt-120b与glm-4.5的对比。

现在的大模型，经过DeepSeek浪潮之后，不约而同都选择了MOE架构。

这两款模型，在同等规模的开源模型中展现出更优的推理能力，具备出色的工具使用功能，并针对消费级硬件上的高效部署进行了优化。其训练融合了强化学习技术与受 OpenAI 最先进内部模型（包括 o3 及其他前沿系统）启发的方法。

据报告，gpt-oss-120b 在核心推理基准测试中的表现接近 OpenAI 的 o4-mini 模型，同时可在单个 80GB GPU 上高效运行；而 gpt-oss-20b 在常见基准测试中与 OpenAI 的 o3-mini 模型水平相当，且仅需 16GB 内存即可在边缘设备上运行，使其成为设备端应用、本地推理或低资源快速迭代的理想选择。两款模型在工具调用、少样本函数执行、思维链推理（CoT）以及 HealthBench 测试中均表现强劲，部分结果甚至优于 OpenAI o1 和 GPT-4o 等专有模型。

model card【2】给出了两个模型在不同推理水平上的准确性差异。

这些模型与其回复 API⁠兼容，专为智能体工作流设计，具备出色的指令执行能力、工具集成能力（如网页搜索和 Python 代码执行）以及灵活的推理能力，可根据任务需求动态调整推理强度，尤其适用于对延迟敏感或无需深度推理的场景。模型支持完整的思维链输出和结构化输出⁠，并允许用户进行深度定制。

安全被视作模型发布的核心原则，尤其是在开源背景下更为重要。除常规的安全训练与评估外，他们还引入了额外的评估层级：通过测试一个经过对抗性微调的 gpt-oss-120b 版本，在其《防范准备框架》⁠下验证模型的安全性。结果显示，gpt-oss 系列模型在内部安全基准上的表现与其最先进的闭源模型相当，为开发者提供了与近期专有模型同等的安全保障。

2. 模型介绍

他们介绍了 gpt-oss 模型的预训练方法与模型架构。这些模型采用了其最先进的预训练和后训练技术，重点优化了推理能力、运行效率以及在多种部署环境下的实用性。尽管他们此前已开源了如 Whisper⁠ 和 CLIP⁠ 等模型，但 gpt-oss 系列是自 GPT‑2以来首次发布的开放大型语言模型。

每个 gpt-oss 模型均基于 Transformer 架构，并引入了专家混合机制（MoE），以降低处理输入时所需的激活参数数量，从而提升计算效率。其中，gpt-oss-120b 在每个令牌处理过程中激活 51 亿参数，总参数量达 1,170 亿；gpt-oss-20b 则激活 36 亿参数，总参数量为 210 亿。模型采用了交替的密集注意力与局部带状稀疏注意力结构，设计上与 GPT‑3 相似。为进一步提升推理速度和内存使用效率，模型还集成了分组多查询注意力机制，分组大小为 8。

在位置编码方面，他们采用了旋转位置嵌入（RoPE），并原生支持最长 128k 的上下文长度，适用于长文本处理任务。模型的训练基于一个高质量、以英文为主的纯文本数据集，重点覆盖 STEM、编程以及通用知识领域。在数据令牌化过程中，使用了名为 ‘o200k_harmony’ 的分词器，该分词器是 OpenAI o4-mini 和 GPT‑4o 所用分词器的超集，他们也于同日将其开源。

gpt-oss 采用了与 OpenAI o4-mini 类似的后训练流程，包括监督式微调阶段以及高计算量的强化学习阶段。其主要目标是使模型符合《OpenAI 模型规范》⁠，并具备在生成回答前主动应用思维链（CoT）推理和工具使用的能力。通过借鉴其最先进的专有推理模型所使用的技术，这些开源模型在完成训练后展现出优异的综合性能。

与 OpenAI o 系列推理模型在 API 中的实现方式类似，gpt-oss-120b 和 gpt-oss-20b 支持三种可调节的推理强度——低、中、高，允许在响应延迟与推理质量之间进行灵活权衡。开发者可通过在系统消息中添加简短指令，轻松设定所需的推理难度。

3. 模型评测

在评估方面，他们对 gpt-oss-120b 和 gpt-oss-20b 在多个标准学术基准上进行了测试，涵盖编程、竞赛数学、医疗问答以及智能体工具使用能力，并与 OpenAI 的多个推理模型（包括 o3、o3-mini 和 o4-mini）进行了对比。

评估结果显示，gpt-oss-120b 在竞赛编程（Codeforces）、通用知识问答（MMLU 和 HLE）以及工具调用能力（TauBench）方面优于 o3-mini，表现与 o4-mini 相当甚至更优。此外，它在健康领域任务（HealthBench⁠）和竞赛数学（AIME 2024 与 2025）上的表现也超过了 o4-mini。尽管 gpt-oss-20b 规模较小，但在相同测试中仍达到了与 o3-mini 相当或更优的水平，尤其在竞赛数学和医疗任务中表现突出。