当前位置：首页 > news >正文

O1 Nano：OpenAI O1模型系列的简化开源版本

news 2025/8/21 15:36:45

概览

O1 Nano 是一个开源项目，它实现了 OpenAI O1 模型系列的简化版本。O1 模型是一个高级语言模型，它在训练和推理过程中整合了链式思维和强化学习。这个实现版本，称为 O1-nano，专注于解决算术问题，以展示模型的能力。该项目受到了 Siraj Raval 在 YouTube 上的视频的启发。

主要特点

链式思维推理：模型生成完成令牌和内部推理令牌，模拟思维过程。
强化学习：使用近端策略优化（PPO）进行训练。
多推理路径：在生成过程中探索多条路径，并选择最佳路径。
子任务生成：能够将复杂问题分解为更小的子任务。
自适应推理：包括在生成过程中修订推理的机制。
大上下文窗口：支持高达128,000个令牌的上下文窗口。
内部推理令牌：实现了用于推理的可丢弃内部令牌。

文件

train.py：包含模型架构、训练循环和实用函数。
test.py：提供了一个简单的界面，用于与训练好的模型交互。

模型架构

train.py 中的 O1Model 类定义了模型架构：

嵌入层
位置编码
多个变换器层
分别的完成和推理解码器
用于强化学习的值头
子任务生成头

训练过程

训练过程结合了监督学习和强化学习：

数据生成：算术问题即时生成。
监督学习：模型被训练以预测正确的解决方案和推理步骤。
强化学习：使用 PPO 来优化模型的策略，基于奖励。
动态课程：根据训练进度调整问题的难度。

使用方法

训练：运行 python train.py 将训练模型500个周期，并将模型保存为 o1_model.pth。
测试：运行 python test.py 将加载训练好的模型，并允许你输入算术问题让模型解决。

需求

Python 3.7+
PyTorch 1.8+

模型参数

嵌入维度：128
注意力头数：8
变换器层数：4
丢弃率：0.1

词汇表

模型使用了一个为算术操作定制的词汇表，包括用于子任务和推理步骤的特殊令牌。

评估

模型根据其正确解决算术问题的能力进行评估。评估指标包括平均奖励和处理的有效样本数量。

规模：此实现比 OpenAI 描述的实际 O1 模型小。
任务多样性：目前专注于算术；可以扩展到更多样化的任务。
自我修正：自我修正机制可以更加复杂。

http://www.lryc.cn/news/468571.html

相关文章：

浅谈人工智能之Llama3微调后使用cmmlu评估

为什么需要MQ？MQ具有哪些作用？你用过哪些MQ产品？请结合过往的项目经验谈谈具体是怎么用的？

Flutter项目打包ios, Xcode 发布报错 Module‘flutter barcode_scanner‘not found

RWSENodeEncoder, KER_DIM_PE（lrgb文件中的encoders文件中的kernel.py）

技术文档：基于微信朋友圈的自动点赞工具开发

kubernetes_pods资源清单及常用命令

科目二侧方位停车全流程

2024源鲁杯CTF网络安全技能大赛题解-Round2

社交媒体与客户服务：新时代的沟通桥梁

设置虚拟机与windows间的共享文件夹

微信小程序性能优化 ==== 合理使用 setData 纯数据字段

【加密系统】华企盾DSC服务台提示：请升级服务器，否则可能导致客户端退回到旧服务器的版本

直连南非，服务全球，司库直联再进一步

【spring】从spring是如何避免并发下获取不完整的bean引发的思考什么是双重检查锁什么是java内存模型

【计算机网络一】网络学习前置知识

nuScenes数据集使用的相机的外参和内参

数据结构与算法：贪心算法与应用场景

音频编解码器音频文件格式

FreeSWITCH JSON API

学习docker第三弹------Docker镜像以及推送拉取镜像到阿里云公有仓库和私有仓库

一文掌握Kubernates核心组件，构建智能容器管理集群

正则表达式快速入门

【小程序】-基础语法（二）

js 填充数组

AI创作3款软件分享，助力内容创作者高效产出优质作品

A survey of loss functions for semantic segmentation——论文笔记

docker部署es与kibana Mac

redis的渐进式哈希？说一下细节？------面试题分享

javaWeb项目-springboot+vue-车辆管理系统功能介绍