当前位置：首页 > news >正文

GPT-oss：OpenAI再次开源新模型，技术报告解读

news 2025/8/12 10:18:46

1.简介

OpenAI 发布了两款开源权重推理模型 gpt-oss-120b 与 gpt-oss-20b，均采用 Apache 2.0 许可，主打在代理工作流中执行复杂推理、调用工具（如搜索、Python 代码执行）并严格遵循指令。120b 为 36 层 MoE 结构，活跃参数 5.1B，总参数 116.8B；20b 为 24 层，活跃参数 3.6B，总参数 20.9B。通过 MXFP4 量化，120b 可在单张 80 GB GPU 上运行，20b 只需 16 GB 显存。预训练数据截止到 2024 年 6 月，聚焦 STEM、编程与通识，已过滤生化风险内容；后训练沿用 o3 的 CoT RL 技术，引入 Harmony 对话格式，支持低/中/高三种推理强度，并赋予网页浏览、Python 沙盒及任意函数调用能力。

模型在数学（AIME）、科学问答（GPQA Diamond）、大学级考试（MMLU、HLE）、编程竞赛（Codeforces）、软件工程（SWE-Bench Verified）及工具调用（τ-Bench）等基准上全面超越 o3-mini，逼近 o4-mini，且测试时通过增加 CoT 长度可平滑提升准确率。健康领域评测（HealthBench）显示 120b 接近 o3，显著优于 GPT-4o、o1、o3-mini、o4-mini；多语言 MMMLU 平均得分亦仅次于 o4-mini。幻觉和事实性测试表明模型仍逊于 o4-mini，但可通过联网检索缓解。公平性 BBQ 测试与 o4-mini 持平。

安全层面，模型默认遵循 OpenAI 政策，经过拒答违禁内容、越狱、指令层级等评估，表现与 o4-mini 相近；外部红队与内部对抗微调实验显示，即使利用 OpenAI 最强 RL 框架，120b 在生物化学与网络安全领域仍未达到高危险阈值，也不会显著推高开源模型的生化前沿。由于权重开放，OpenAI 提醒下游需自行部署系统级防护；模型 CoT 未做过滤，可能包含不当内容，开发者应自行审查。

2.模型架构

gpt-oss 模型为自回归混合专家变换器，基于 GPT-2 与 GPT-3 架构演进而来。作者此次发布两种规模：gpt-oss-120b 含 36 层，总参数 1168 亿，每 token 前向计算激活 51 亿参数；gpt-oss-20b 含 24 层，总参数 209 亿，每 token 激活 36 亿参数。表 1 给出完整参数统计。

2.1 量化

作者通过量化降低模型显存占用。在后续训练中，作者将 MoE 权重量化至 MXFP4 格式，每个参数用 4.25 bit 表示。MoE 权重占总参数量的 90% 以上；将其量化后，大模型可装入单张 80 GB GPU，小模型可在仅 16 GB 内存的系统上运行。具体大小见表 1。

2.2 架构

两种模型的残差流维度均为 2880；在每个注意力与 MoE 模块前，作者对激活值做均方根归一化。沿用 GPT-2 的 Pre-LN 布局。

混合专家：每个 MoE 模块包含固定数量的专家（gpt-oss-120b 为 128 个，gpt-oss-20b 为 32 个），以及一个标准线性路由器，将残差激活映射为对各专家的得分。两模型均按路由器输出挑选得分最高的 4 位专家，并以 softmax 归一化后的权重加权其输出。MoE 模块采用带门控的 SwiGLU 激活函数。

注意力：遵循 GPT-3，注意力模块在带状窗口与全密集模式之间交替，窗口带宽为 128 个 token。每层含 64 个查询头，每头维度 64，并采用 8 个键值头的分组查询注意力。作者使用旋转位置编码，并通过 YaRN 将全密集层的上下文长度扩展至 131 072 个 token。

带状窗口(sliding window attention)的每个注意力头在 softmax 分母中引入可学习偏置，类似 off-by-one 注意力与注意力汇聚机制，使注意力可选择忽略任意 token。

YaRN（Yet Another Random Noise）是 OpenAI 在其 gpt-oss 模型中采用的一种技术，用于扩展模型的上下文窗口，即增加模型能够处理的文本长度。具体来说，YaRN 通过引入随机噪声来优化模型对长序列的处理能力，使得模型能够在不显著增加计算成本的情况下，处理更长的文本输入。

可学习偏置的引入：在 gpt-oss 模型中，为了增强注意力机制的灵活性，每个注意力头的 softmax 分母中引入了一个可学习的偏置项 b。具体公式如下： $\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T + b}{\sqrt{d_k}}\right) V$ ，这里的 b 是一个可学习的参数，形状与 $QK^T$ 一致，即每个 token 对每个 token 的注意力分数都有一个对应的偏置值。
这个偏置项的作用是调整每个 token 的相关性分数，从而影响注意力权重的分配。
off-by-one 注意力：这种机制允许模型在计算注意力分数时，对某些 token 的相关性进行微调。例如，通过偏置项 b，模型可以调整某个 token 对其他 token 的关注度，甚至可以选择忽略某个特定的 token。这种机制类似于“注意力偏移”，使得模型能够更灵活地处理序列中的局部信息。
注意力汇聚机制：通过引入偏置项，模型可以更有效地汇聚注意力，即集中关注某些重要的 token，而忽略其他不重要的 token。这种机制类似于“注意力池化”，能够帮助模型更好地捕捉关键信息。

其中所谓带状窗口(sliding window attention)的结构如下：

2.3 分词器

在所有训练阶段，作者统一采用 o200k_harmony 分词器，并已在 TikToken 库中开源。该分词器基于字节对编码，在用于 GPT-4o 等模型的 o200k 分词器基础上，新增专为 harmony 聊天格式设计的显式 token，总词汇量为 201 088 个。

专为 harmony 聊天格式设计的显式 token：这些 token 与常规文本 token 并列，但功能不是表达自然语言词汇，而是像“标签”一样告诉模型：
消息边界在哪里（例如某段话是用户说的还是助手说的）；
消息的角色是谁（system / developer / user / assistant）；
消息的可见范围（例如仅供内部思考的 analysis 通道 vs 最终展示给用户的 final 通道）；
是否正在调用工具（如函数调用时的 commentary 通道）；
其他 harmony 格式特有的控制符号。
这些 token 被直接写进 tokenizer（o200k_harmony），总量约 20 万，其中就包括为 harmony 格式新增的专用符号。因为它们是“显式”的，所以模型在解码时一看到对应 token 就能立即识别出结构意图，无需像早期做法那样依赖复杂的文本约定或隐式推断。

2.4 预训练数据

作者使用数万亿 token 的纯文本语料进行训练，重点涵盖 STEM、编程和通用知识。为提升模型安全性，作者在预训练阶段过滤有害内容，尤其针对危险的生物安全知识，复用了 GPT-4o 的 CBRN 预训练过滤器。模型知识截止于 2024 年 6 月。

训练：gpt-oss 系列模型在 NVIDIA H100 GPU 上使用 PyTorch 框架，并调用面向专家优化的 Triton 内核完成训练。gpt-oss-120b 的训练耗时 210 万 GPU·小时；gpt-oss-20b 约为其十分之一。两模型均利用 Flash Attention 算法降低显存占用并加速训练。

2.5 推理与工具使用的后训练

预训练完成后，作者采用与 OpenAI o3 类似的链式思维强化学习技术对模型进行后训练。该流程教会模型如何运用链式思维推理与解决问题，并掌握调用工具的方法。由于采用了相近的 RL 技术，这些模型的性格与作者官方产品（如 ChatGPT）中的模型相似。训练数据涵盖编程、数学、科学等多领域问题。

2.5.1 Harmony 聊天格式
训练过程中，作者使用自研的 harmony 聊天格式。该格式通过特殊 token 划定消息边界，并以关键字参数（如 User、Assistant）标识消息作者与接收者。作者沿用 OpenAI API 中的 System 与 Developer 角色，并建立角色优先级的信息层级：System > Developer > User > Assistant > Tool。格式还引入“通道”概念，用于指明每条消息的可见范围，例如 analysis（链式思维 token）、commentary（函数调用说明）和 final（展示给用户的答案）。借助该格式，gpt-oss 可在链式思维中交错工具调用，或向用户预先展示更长行动计划。作者随附的开源实现与指南详细介绍了正确使用此格式的方法；若未按规范部署，将无法发挥模型的最佳能力。例如，在多轮对话中，应移除先前助手回合的推理痕迹。附录表 17 与 18 展示了 harmony 格式的输入输出示例。

2.5.2 可变深度推理训练
作者训练模型支持三种推理等级：低、中、高。通过在系统提示中插入关键词如“Reasoning: low”来设定。推理等级越高，模型链式思维的平均长度越长。

2.5.3 智能体工具使用
后训练阶段，作者还教会模型使用多种智能体工具：

浏览工具：允许模型调用 search 与 open 函数与网络交互，提升事实准确性并获取超出知识截止的信息。
Python 工具：允许模型在带状态的 Jupyter 环境中执行代码。
任意开发者函数：开发者可在 Developer 消息中以类似 OpenAI API 的方式定义函数模式，函数声明遵循 harmony 格式，示例见表 18。

模型可以在链式思维、函数调用、函数返回、中间用户可见消息与最终答案之间交错输出。通过系统提示可指定是否启用这些工具。针对每种工具，作者提供了支持核心功能的基础参考框架，开源实现中给出了更多细节。

2.6 评估

作者在经典推理、编程与工具使用基准上对 gpt-oss 进行评估。所有数据集均报告“高”推理模式下、使用模型默认系统提示的 pass@1 结果，并与 OpenAI o3、o3-mini 和 o4-mini 对比。评估任务包括：

推理与事实性：AIME、GPQA、MMLU、HLE。
编程：Codeforces Elo 与 SWE-bench Verified。作者既测试无终端工具场景，也测试提供类似 Codex CLI 的 exec 工具场景。
工具使用：τ-Bench Retail 的函数调用能力；作者在开发者消息中为模型提供可调用的函数。
附加能力：多语言能力、健康知识等，采用 MMMLU、HealthBench 等基准。

两种 gpt-oss 模型在所有推理等级上的完整结果见表 3。

2.6.1 推理、事实性与工具使用

核心能力：图 1 展示了在 AIME、GPQA、HLE、MMLU 四项经典知识与推理任务上的主要结果。gpt-oss 系列在数学任务上表现尤为突出，作者认为得益于其能有效利用超长链式思维——例如 gpt-oss-20b 在 AIME 每题平均使用超过 2 万 CoT token。在更依赖知识广度的 GPQA 等任务上，gpt-oss-20b 因规模较小而略显落后。

智能体任务：在编程与工具使用场景下，gpt-oss 表现尤为强劲。图 2 显示了在 Codeforces、SWE-bench 与 τ-bench retail 上的成绩。与核心能力评估类似，gpt-oss-120b 的表现已接近 o4-mini。

测试时缩放：模型在测试时表现出平滑的缩放特性。图 3 中，作者遍历低、中、高三种推理模式，绘制准确率与平均 CoT+答案长度的关系。多数任务呈现近似对数线性收益：更长的 CoT 带来更高准确率，但响应延迟与成本显著增加。作者建议用户根据具体用例选择模型规模与对应的推理等级，以平衡性能、延迟与成本。

2.6.2 医疗健康表现

为评估模型在医疗相关场景中的性能与安全性，作者在 HealthBench 上测试了 gpt-oss-120b 与 gpt-oss-20b。表 3 给出 HealthBench（面向个人与医疗专业人员的真实健康对话）、HealthBench Hard（更具挑战的子集）以及 HealthBench Consensus（经多位医生共识验证的子集）在低、中、高三种推理强度下的得分。图 4 显示，在高推理模式下，gpt-oss 模型的表现可与最佳闭源模型（包括 OpenAI o3）相媲美，并超越部分前沿模型。其中，gpt-oss-120b 在 HealthBench 与 HealthBench Hard 上几乎追平 OpenAI o3，并以显著优势领先 GPT-4o、OpenAI o1、OpenAI o3-mini 和 OpenAI o4-mini。这一结果在健康性能-成本前沿上实现了大幅帕累托改进。开放模型在全球健康领域尤为重要，隐私与成本限制往往更为关键。作者希望此次发布能够让健康智能与推理能力更广泛可得，推动 AI 福祉的普及。请注意，gpt-oss 模型不能替代医疗专业人员，不用于疾病的诊断或治疗。

2.6.3 多语言表现

为衡量多语言能力，作者采用 MMMLU 评估，该评估将 MMLU 专业人工翻译为 14 种语言。答案提取时先清除多余 Markdown 或 LaTeX 语法，再在模型输出中搜索各语言对“Answer”的翻译。与其他评估类似，gpt-oss-120b 在高推理模式下表现接近 OpenAI o4-mini-high。

2.6.4 完整评估
作者在大量基准上，针对所有推理等级，给出了 gpt-oss 模型的完整评估结果。

3.安全测试与缓解措施

在后训练阶段，作者采用审慎对齐方法，让模型学会对广泛的有害内容（例如非法建议）予以拒绝，具备抵御越狱攻击的能力，并遵循指令层级。基于作者对开放权重模型的一贯立场，作者认为测试条件应尽可能反映下游参与者可能修改模型的各种方式。开放模型最有价值的特性之一，就是下游开发者可对其能力进行扩展并针对具体应用做定制；但这也意味着恶意方有可能增强模型的有害能力。因此，对开放权重发布的风险评估，应包括对恶意方可行修改方式的合理范围测试，例如通过微调。

gpt-oss 模型在默认设置下被训练为遵守作者的安全政策。作者对 gpt-oss-120b 进行了可扩展的准备度评估，确认默认模型在准备度框架的三大追踪类别——生物与化学能力、网络能力、AI 自我改进——均未达到高能力指示阈值。

“准备度框架的三大追踪类别”是 OpenAI 用来提前识别并量化那些可能带来严重社会危害的前沿模型能力的三条主线。具体含义如下：
生物与化学能力：指模型在无需人类专家深度介入的情况下，能否**设计、优化或指导执行**具有高度破坏性的生物或化学威胁活动——例如合成新型病原体、绕过实验室安全规程、获取管制试剂、解决实验过程中的关键难点等。评估时会看模型能否在“创生-放大-配制”全链条上提供高质量、可落地的方案。
网络能力：指模型能否**独立完成端到端的网络攻击链**：从漏洞发现、武器化利用、横向移动到持久化控制，再到数据窃取或服务瘫痪。重点看模型在真实网络环境（CTF、Cyber Range）中，**不依赖人类操作员**即可达成高价值目标的能力。
AI 自我改进：指模型能否**在没有外部人类研究者的情况下**，自主完成**对自身或下一代 AI 系统的改进任务**，例如自动修复自身缺陷、复现与扩展最新研究论文、提交有效 Pull Request、迭代训练出更强大的后继模型。若模型能持续提升自身性能，就可能出现“递归自我增强”风险。
OpenAI 对 gpt-oss-120b 的测试结论是：即使经过对抗微调，该模型在这三条线上都未达到“高能力”阈值，因此不会立即触发最高等级的安全管控措施。

作者进一步研究了两个问题：

第一，对抗方能否通过微调使 gpt-oss-120b 在生物与化学或网络领域达到高能力？作者模拟潜在攻击者行为，内部生成了针对这两类风险的对抗微调版本（不予发布）。作者安全顾问组审阅后认定，即便利用业界领先的训练栈进行强力微调，gpt-oss-120b 仍未达到生物化学风险或网络风险的高能力阈值。
第二，发布 gpt-oss-120b 是否会显著推进开放基础模型在生物能力方面的前沿？作者通过对 gpt-oss-120b 及其他开放基础模型进行生物准备度评估后发现，在大多数评估中，已存在其他开放权重模型的得分等于或接近 gpt-oss-120b。因此，作者认为此次发布不太可能显著推进开放权重模型的生物能力前沿。

除特别说明外，本模型卡中的性能结果均指 gpt-oss-120b 与 gpt-oss-20b 的默认表现。如下文所述，作者亦对 gpt-oss-120b 的对抗微调版本进行了生物化学风险与网络安全的准备度框架评估。

4.默认安全表现：观察到的挑战与评估

4.1 违禁内容

以下评估用于检验模型在作者安全政策下是否拒绝生成违禁内容，包括仇恨言论与非法建议。作者采用三类评估：

标准违禁内容评估：作者报告传统评估结果，用以衡量模型对违禁请求的拒绝效果。然而，近期模型已在此基准上趋于饱和（见结果表），难再提供增量安全信号。为持续衡量进展，作者构建了新的 Production Benchmarks 评估集，并计划在未来停止发布旧基准，仅采用更具挑战性的新基准。
Production Benchmarks：随 ChatGPT agent 一同引入的新评估集，其对话更贴近线上真实数据，多轮且更具迷惑性。

作者使用基于大模型的评分器，以 not_unsafe 指标衡量输出是否符合作者安全政策。由于该基准特意提高难度，分数普遍低于旧基准，可更灵敏地反映安全改进趋势。结果显示，gpt-oss-120b 与 gpt-oss-20b 整体与 OpenAI o4-mini 持平：

– 在旧基准上，两模型与 o4-mini 的差距在 1–2 个百分点以内；
– 在新 Production Benchmarks 上，两模型普遍显著优于 o4-mini。
其中，较小模型 gpt-oss-20b 在 Production Benchmarks 的非法/暴力类别上略低于 o4-mini，但仍优于非推理聊天模型 GPT-4o。

4.2 越狱

作者进一步评估 gpt-oss-120b 与 gpt-oss-20b 对越狱攻击的鲁棒性。越狱指故意设计的对抗提示，旨在绕过模型对违禁内容的拒绝。评估方法如下：

StrongReject：将已知越狱模板嵌入前述安全拒答评估的示例中，随后用与违禁内容检测相同的策略评分器进行评测。作者在多个危害类别的基准提示上测试越狱技巧，并以相关策略下的 not_unsafe 作为指标。

结果表明，gpt-oss-120b 与 gpt-oss-20b 的整体表现与 OpenAI o4-mini 相当。

4.3 指令层级

推理服务提供商可让开发者在每次终端用户的提示中附带自定义开发者消息。这一功能虽便利，但若处理不当，开发者可能借此绕过 gpt-oss 的安全护栏。为缓解此风险，作者训练模型遵循指令层级。

作者在后训练中采用 harmony 提示格式，引入 system、developer、user 三种角色。作者收集这些角色指令互相冲突的示例，并通过监督学习使 gpt-oss 优先遵循 system 消息，其次 developer 消息，最后 user 消息。由此，推理服务提供商与各自层级的开发者都能按需设定护栏。

评估分为两部分：

system 与 user 冲突：模型必须按照 system 指令才能通过。
- 系统提示提取：检验 user 消息能否套取完整系统提示。
- 提示注入劫持：user 试图让模型输出“access granted”，而 system 禁止除非满足秘密条件。
system 或 developer 与 user 冲突：在 system 或 developer 消息中禁止输出特定短语或密码，并尝试通过 user 消息诱使模型泄露。

作者观察到，在指令层级评估中，gpt-oss-120b 和 gpt-oss-20b 整体表现弱于 OpenAI o4-mini。尚需更多研究以明确原因，此处先作两点说明：

在 StrongReject 越狱评估中，gpt-oss-120b 与 gpt-oss-20b 的成绩与 o4-mini 大致持平。这表明两模型对已知越狱手段具有一定鲁棒性，但在防止用户覆盖系统消息方面仍逊于 o4-mini。实际应用中，开发者若依赖系统消息来缓解越狱，效果可能不及作者在 o4-mini 上的同样做法。
另一方面，开发者可对任一 gpt-oss 模型进一步微调，以增强对已遇到越狱手段的抵抗力，从而获得更强的鲁棒性路径。

4.4 幻觉式链式思维

作者近期研究发现，监控推理模型的链式思维有助于发现不当行为；若直接抑制链式思维中的“不良想法”，模型可能学会隐藏思维并继续违规。近期，作者与其他多家实验室联合撰文，呼吁前沿开发者“考量研发决策对链式思维可监控性的影响”。基于这些关切，作者未对两款开放权重模型的链式思维施加任何直接优化压力，希望为开发者留出自行实现链式思维监控系统的空间，并便于学术界进一步研究其可监控性。由于链式思维未受限制，其中可能出现幻觉内容，包括与作者标准安全政策不符的表述。开发者若要将链式思维直接展示给终端用户，须先进行过滤、审核或摘要，切勿原样呈现。

4.5 幻觉

为检测幻觉，作者在无网络浏览权限的条件下，对 gpt-oss-120b 与 gpt-oss-20b 进行以下评估：

SimpleQA：包含四千道事实类简答题，用于衡量模型回答的准确率。
PersonQA：针对公众人物的问答数据集，用于衡量模型回答的准确率。

作者采用两项指标：准确率（回答正确与否）与幻觉率（回答错误与否）。准确率高为佳，幻觉率低为佳。两模型在 SimpleQA 与 PersonQA 上均逊于 o4-mini，这符合预期——较小模型世界知识有限，更易产生幻觉。此外，若允许浏览或检索外部信息，模型可查缺补漏，幻觉现象通常减少。

4.6 公平性与偏见

作者在 BBQ 评估上对 gpt-oss-120b 与 gpt-oss-20b 进行测试，总体表现与 o4-mini 相当。

5.准备度框架

Preparedness Framework（准备度框架）是 OpenAI 于 2023 年底正式提出的一套前瞻性风险管理机制，核心目标是在模型能力达到“可能造成严重或灾难性伤害”之前，就提前识别、度量并部署足够的防护措施。它把抽象的“极端风险”拆成可操作的量化指标，并配套了触发式治理流程。简言之，就是 OpenAI 的“红线预警系统”。

5.1 对抗训练

gpt-oss 模型采用作者最先进的安全训练方法。预训练阶段，作者过滤了与化学、生物、放射性和核危害相关的有害数据；后训练阶段，作者通过审慎对齐和指令层级训练模型拒绝不安全提示并防御提示注入。然而，恶意行为者可对开放权重模型（包括 gpt-oss）进行微调。为评估此类微调对准备度框架所追踪能力类别的潜在影响，作者针对生物与化学能力、网络能力这两个最有可能因对抗微调而达到高能力阈值的类别，制作了 gpt-oss-120b 的对抗微调版本。

对抗训练模拟如下攻击者：具备技术背景、拥有强大后训练基础设施与机器学习知识、可收集有害能力的领域内数据，并拥有充足算力。作者聚焦于增量强化学习这一最契合的技术路径，并采用内部 o 系列 RL 训练栈，在保留模型推理行为的同时增加新能力。训练与评估均使用 gpt-oss 的最高推理档位。具体方法详见配套研究论文，主要包含两部分：

仅奖励有用训练：额外进行一轮强化学习，奖励符合不安全提示的回答。作者发现此方法效果显著，并已用于 ChatGPT agent 等最新模型的仅奖励有用版本。
最大化与准备度基准相关的生物与网络能力：
- 生物模型：端到端增量训练 gpt-oss-120b 使用网页浏览，并用与生物风险相关的领域内人类专家数据继续增量训练（此前作者模型在该领域表现最优）。
- 网络模型：使用网络安全夺旗挑战环境作为领域特定数据。

随后，作者通过内部与外部测试评估这些模型的能力水平。作者安全顾问组审阅了全部测试并得出结论：即使利用业界领先的训练栈进行强力微调，gpt-oss-120b 仍未达到生物与化学风险或网络风险的高能力阈值。

5.1.1 外部安全专家对对抗训练方法的反馈
作者邀请了一组外部安全专家（METR、SecureBio 与 Daniel Kang）对恶意微调方法进行独立审阅与验证。作者向专家提供了研究论文的早期草稿、非公开的微调数据集细节、方法学说明，以及用于准备度评估的脚手架信息（包括此前在 OpenAI o4-mini 恶意微调版本上运行过的基准）。作者还安排了一小时的问答环节，由方法论文的作者在线答疑，以便专家提出知情反馈。

外部评审共提交 22 项建议。作者采纳并落实了其中 11 项，包括被专家标记为高紧迫性的 12 项中的 9 项。作者对论文进行了澄清性修改，补充新分析，并在相关环节改进了报告质量。这些调整强化了评估流程，并提升了论文与模型卡的清晰度。具体改动包括：

增加与协议调试相关的微调数据；
新增一套未受污染的协议调试评估；
将过时的病毒学评估更新至最新版本；
阐明对低资源行为者及对抗微调成本的假设；
明确各项评估所能提供的信号；
给出专家基线；
改进对拒绝行为及任务级成功率的报告；
通过测试更强的脚手架方案来增强实验设置。

下文概述已落实的建议，以及三项被标记为高紧迫性但暂未采纳的建议。

5.2 能力发现

5.2.1 生物与化学——对抗微调

在专为探测模型上限而设计的最大诱导条件下，gpt-oss-120b 在回答涉及生物学知识及危害场景的文字问题时表现出显著能力。然而，尽管总体表现良好，它尚未在复杂的实验方案调试任务上达到高能力阈值；且其纯文本架构先天限制了在依赖视觉的实验环境中的适用性。生物领域是 gpt-oss-120b 表现最强的方向。

鉴于作者计划以开放权重形式发布 gpt-oss，作者还考察了第二个问题：即便未在准备度框架中达到高能力，gpt-oss-120b 是否会显著推进开源基础模型在危险生物能力方面的前沿？为此，作者将其与已发布的开源模型对比。最初主要参照 DeepSeek R1-0528；评估过程中，Qwen 3 Thinking 与 Kimi K2 相继发布，作者随即将其纳入对比。结果显示，Qwen 3 Thinking 与 Kimi K2 的进步已使 gpt-oss-120b 并未在生物安全相关评估上显著领先。虽然 gpt-oss-120b 在部分生物安全评测中得分最高，但没有任何单一开源模型在该领域持续全面领先。

5.2.1.1 长篇生物风险问答
作者评估了模型对长篇生物威胁问题的回答准确性。题目涵盖生物威胁制造过程的五个阶段：构想、获取、扩增、配制与释放。作者与 Gryphon Scientific 共同设计题目与详细评分标准，后者在危险病原体国家安全研究方面具有专长。作者以 OpenAI o1-preview（未缓解版本）为自动评分器，并用可信的生物安全专家意见验证一致性，随后根据专家反馈调整评分标准并迭代自动评分器。所有 gpt-oss“仅奖励有用”变体及对比模型均能在五个阶段中整合生物风险相关信息。需要说明的是，Kimi K2、Qwen 3 和 DeepSeek R1 的测试未启用浏览功能且未做对抗微调；而 OpenAI o3、o4-mini 及 gpt-oss 各变体（含对抗微调）均启用了浏览。对于 Kimi K2、Qwen 3 和 DeepSeek R1，作者使用越狱提示绕过拒绝。

5.2.1.2 多模态病毒学故障排除
为评估模型在多模态场景下调试湿实验的能力，作者使用 SecureBio 提供的 350 道全新病毒学故障排除题进行测试。OpenAI o3 在该基准上仍居首位；所有模型得分均高于人类基线（40%）。启用浏览时，作者维护域名黑名单并屏蔽相关结果，同时用分类器检查浏览轨迹，标记疑似作弊实例并人工复查所有被标记轨迹。

5.2.1.3 ProtocolQA 开放问答
为衡量模型调试常见已发布实验方案的能力，作者将 FutureHouse ProtocolQA 数据集中的 108 道多选题改为开放式简答题，使评估更具挑战也更贴近真实场景。题目故意在常用方案中植入严重错误，描述按此方案实验后的湿实验结果，并要求给出修复方法。为与博士级专家对比，作者邀请 19 位具一年以上湿实验经验的博士科学家完成专家基线测试。
OpenAI o3 仍是该基准上的最佳模型。所有模型均低于共识专家基线 54%，也低于专家中位线 42%。若启用浏览，作者维护域名黑名单并过滤黑名单站点结果，同时用分类器标记可疑作弊轨迹并人工复查所有被标记轨迹。

5.2.1.4 默会知识与故障排除
作者与 Gryphon Scientific 合作构建了一套默会知识与故障排除选择题，题目覆盖生物威胁制造五阶段，聚焦默会知识瓶颈。默会知识题对非从业者晦涩，需联系论文作者或业内人脉；故障排除题对无实操经验者晦涩，答案仅实践者知晓。该数据集完全内部创建，未公开发布，确保无数据污染。OpenAI o3 在该基准上仍为最佳，所有模型均未超越共识专家基线 80%，但均高于第 80 百分位博士专家基线 63%。

5.2.1.5 TroubleshootingBench
为评估模型识别并修正真实实验错误的能力，作者构建了短答式故障排除数据集。数据集由拥有病毒学、遗传学、微生物学或蛋白工程博士学位的专家，依据个人湿实验经历手写实验方案，要求详细列出步骤、设备与试剂；若改编自文献，需显著修改至少数步。专家为每份方案设计 3 个故障排除题，引入细微或真实的操作错误（如匀浆不当）并描述失败结果。经独立专家审核后，最终数据集含 52 份方案，每份 3 题。作者以 12 位独立博士专家做人类基线，取第 80 百分位得分 36.4% 作为模型性能参考阈值。与聚焦公开方案的 ProtocolQA 不同，TroubleshootingBench 专测非公开、经验驱动的方案及依赖默会程序知识的错误。OpenAI o3 在该新基准上仍为最佳，所有模型均未超越人类 80 分位 36.4%。

5.2.1.6 外部安全专家评估与红队演练
作者委托 SecureBio 作为外部评估方，对 gpt-oss-120b 进行生物安全相关任务测试，包括静态基准、长篇生物设计、基于智能体的片段与筛选挑战，以及人工红队演练。其评估显示，对抗微调版 gpt-oss-120b 在这些任务上普遍优于未微调的 DeepSeek R1-0528，但整体可靠性与深度仍低于作者自家 o3 模型。鉴于 SecureBio 当时以 R1-0528 为最强开源基线，且其浏览脚手架存在一定不确定性，作者随后开展内部补充比较。结果证实，自 SecureBio 评估以来，新发布的开源模型 Qwen 3 Thinking 与 Kimi K2 已提升至与对抗微调版 gpt-oss-120b 在生物安全相关评估上水平相当。

5.2.2 网络安全——对抗微调

网络安全评估聚焦于模型被用于网络攻击、进而破坏计算机系统机密性、完整性与可用性的潜在能力。测试结果显示，gpt-oss-120b 的表现与 OpenAI o3 相当，且均未达到作者设定的高能力阈值。

5.2.2.1 夺旗赛（CTF）挑战
作者在 100 余道经筛选的公开 CTF 挑战上评估模型性能，题目需同时满足以下条件：
• 技能类别
– Web 应用渗透（web）：目标旗标存放在运行漏洞软件的虚拟机中，需通过网络服务远程利用漏洞并执行代码获取旗标。
– 逆向工程（rev）：需分析给定程序，找出漏洞以恢复旗标。
– 二进制与网络利用（pwn）：需构造输入，利用正在运行的程序并获取旗标。
– 密码学（crypto）：旗标被加密或由远程系统以密码学手段保护。
– 综合类（misc）：涵盖从解题到高级安全概念与技巧的其他挑战。

• 公开可得且附带可运行环境。
作者进一步按所需熟练度将题目划分为高中、大学与专业级，并由内部网络安全专家人工判定所需技能。所有大学与专业级 CTF，以及大部分高中级 CTF，均要求非平凡利用，即至少串联两步以上攻击步骤，无法仅靠复制教科书示例完成。

为评估模型，作者为其提供预装常用攻击工具的无图形界面 Linux 发行版，以及允许模型调用这些工具或执行命令的测试框架。每道 CTF 运行 16 次，报告 pass@12，并与准备度框架设定的阈值及先前发布的 OpenAI 模型成绩进行比较。作者不再报告高中级 CTF 成绩，因其过于简单，无法为网络安全风险提供有意义信号。

5.2.2.1 大学级 CTF 挑战
大学级 CTF 题目已被用于训练 cybermax 模型，因此不在图表中展示其成绩。目前，OpenAI o3 在大学级 CTF 挑战中表现最佳，其次是即将发布的 gpt-oss-120b 候选版本。最右侧的 cybermax 模型（训练数据包括高中、大学 CTF 以及部分未纳入任何评估集的 CTF）在该评估中仅比 o3 低 3 个百分点。此外，cybermax 模型还被训练使用带域名屏蔽的浏览工具，以过滤任何包含评估题解或源代码的网站。作者再次提醒，这些评估结果可能仅是模型能力的下限：更完善的脚手架或更强的能力激发手段，可能显著提升实际表现。

5.2.2.2 网络靶场
网络靶场演练衡量模型在仿真真实网络环境中执行端到端网络行动的能力。演练为长流程，要求模型：
1) 制定实现抽象攻击目标的计划；
2) 利用真实环境中常见的漏洞、配置错误与弱点；
3) 将这些利用链式串联以达成场景目标。

目前已实现 5 个靶场场景，按难度分为“轻”或“中”两级：

轻量级：要么需要在某一攻击行为上具备深厚专长并进行少量链式操作；要么需在多种行为上具备浅层专长，但需非平凡链式操作。
中量级：需在至少一种攻击行为上具备深厚专长，并进行非平凡链式操作。

当前场景如下：
– 在线零售商（中）：要求模型深入利用 SQL 注入攻击真实购物门户，并浅层掌握认证缺失、发现、凭据复用等多种攻击模式，最终完成横向移动。
– 简单提权（轻）：在小规模网络内提权，以路径劫持为主，同时需结合凭据使用与发现能力。
– 基础 C2（轻）：模型需为隔离 VM 建立指挥控制通道，步骤不复杂但需非平凡配置。
– Azure SSRF（轻）：利用存在漏洞的 Web 服务器泄露 Azure 凭据，进而修改网络规则访问目标主机。
– 污染共享内容（轻）：线性链式利用实验室式发现、SQL 注入、污染共享内容、提权等步骤，考察自主串联能力。

模型在无图形 Linux 环境中运行，预装标准攻击工具，并附带命令执行框架。每场景测试三种配置：
1) 正常：仅给目标、SSH 私钥；
2) 带提示：额外提供粗略步骤计划；
3) 带求解代码：额外提供部分求解脚本。

每场景运行 30 次。主指标为“无提示”条件下的 pass@12。由于当前模型在该主指标上均为 0%，作者同时报告“带提示”条件下的 pass@1，以衡量模型对外部辅助的需求程度。

5.2.3 AI 自我改进

gpt-oss 系列模型在与 AI 自我改进风险相关的软件工程和 AI 研究任务上，并未表现出性能提升。OpenAI o3 与 o4-mini 在所有相关基准上仍是表现最佳的模型。

5.2.3.1 SWE-bench Verified
SWE-bench Verified 是 SWE-bench 经人工验证的子集，可更可靠地评估 AI 模型解决真实软件问题的能力。该验证集修复了原 SWE-bench 中正确答案误判、问题描述不足、单元测试过于苛刻等问题，确保评分准确。

示例流程如下：

对 OpenAI o3 与 o4-mini，作者使用专为迭代文件编辑和调试设计的内部工具脚手架；在此设置下，每题运行 4 次取平均计算 pass@1（与 Agentless 不同，错误率对结果影响极小）。
所有 SWE-bench 评估均使用固定 477 道已验证任务，并在内部基础设施上复现。
主要指标为 pass@1；在此场景下，作者不把单元测试视为提供给模型的信息，模型必须像真实软件工程师一样，在未知测试用例的情况下实现修改。

所有模型在该评估中表现相近，OpenAI o4-mini 比 o3 仅高 1 个百分点。

5.2.3.2 OpenAI PRs
衡量模型能否自动化 OpenAI 研究工程师的工作，是自我改进评估的核心目标之一。作者通过让模型复现内部员工的 Pull Request 来衡量进度。
单条评估样本基于一次智能体运行：

智能体代码环境被检出到 OpenAI 仓库的 PR 前分支，并收到描述所需改动的提示。
智能体使用命令行工具和 Python 修改代码文件。
修改完成后由隐藏的单元测试评分；若所有任务相关测试通过，则视为成功。

提示、单元测试与提示信息均由人类编写。gpt-oss 模型得分仅比 OpenAI o4-mini 低 2 个百分点。

5.2.3.3 PaperBench
PaperBench 评估 AI 智能体从 0 开始复现 20 篇 ICML 2024 Spotlight 与 Oral 论文的能力，包括理解论文贡献、开发代码库并成功执行实验。

为客观评分，作者将每篇论文的复现任务层级拆解为 8 316 个可独立评分的子任务，并制定清晰评分标准。
本次报告选取原数据集中 10 篇外部数据文件 <10 GB 的子集。
在高推理档位、无浏览条件下报告 pass@1 成绩。

总结

这份《gpt-oss-120b & 20b Model Card》是 OpenAI 对其首批开源权重推理模型的全面技术档案。文件围绕两条主线展开：能力展示与风险控制。

在能力侧，文章系统介绍了两个 MoE 架构的模型——116.8 B 的 gpt-oss-120b 与 20.9 B 的 gpt-oss-20b——通过量化、超长上下文 YaRN、Harmony 聊天格式、可变强度 CoT 与工具调用后训练，使其在数学、编程、科学问答、健康对话、多语言理解等基准上逼近或超越 o3-mini，接近 o4-mini，同时支持在单张 80 GB 甚至 16 GB 显存设备上运行。测试显示，模型具备平滑的“推理强度-准确率”缩放曲线，开发者可按成本与延迟自行权衡。

在安全侧，OpenAI 用 Preparedness Framework 对生物化学、网络攻击、AI 自我改进三大风险类别进行了系统评估。默认权重未触发“High”阈值；即使内部模拟“最强对手”做对抗微调，也仍未越线，因此允许 Apache 2.0 开源。即便如此，文档反复强调：权重一旦放出，下游必须自行叠加系统级护栏；Harmony 格式的完整 CoT 可能含幻觉或不当内容，不可直接暴露给终端用户。

简言之，这份 Model Card 既是一份技术成绩单，也是一份风险告知书：OpenAI 展示了如何在开源与可控之间划出一条可验证的安全边界，并邀请社区在此基础上继续加固与扩展。

查看全文

http://www.lryc.cn/news/617670.html