当前位置: 首页 > news >正文

OpenAI o1:隐含在训练与推理间的动态泛化与流形分布

f3219c5f9a3c42eda25159464db1e2d1.jpg

随着OpenAI o1发布,进一步激发了产业与学术各界对AGI的期待以及new scaling law下的探索热情,也看到来自社区和专业机构对o1的阐释,但总感觉还差点什么,因此决定以自己的角度分篇幅梳理下,并分享给大伙:

OpenAI o1在训练过程所采用的RL实际上可以理解为对long reasoning chain(长程推理链&步骤)的某种迭代式泛化能力探索explore,在这种探索下也很自然的形成了对模型从训练到推理两个阶段的动态渐进与平衡,而这当然也来源于强化学习RL中的R与L两者组合的结构范式本身,从而直观上形成了从training from real world data → influence to synthetis data的scaling law扩展与转移,且在这种新的scaling law下尝试性的铺设了一条通往AGI的相对平坦的“临时阶段性”道路。

ps:某种程度上,我想其也源于对人类system2·慢思考行为的形式化模拟。

而之所以称之为“临时阶段性”,我想表达的核心观点在于:o1的这种范式也许与像Alphazero那种传统的RL+E2E相对暴力一点的认知推理范式有着些许的不同或不得不的改良。

而导致LLM(或者直接称为AGI)与AlphaGo间两种范式不同之处的本质也许在于两者所承载的完整认知流形空间分布的复杂程度上的差别(有关认知流形分布的内容请大家参考置顶笔记或之前写的10万字文章):

7d327c571df747d7870fad8639ceae5c.jpg

拿围棋来讲,其策略网络下的行动探索和决策空间被局限在棋盘的落子位置上,而相比于LLM的tokenize世界中的next token prediction所囊括的探索空间及推理路径在pattern映射精细度、空间维度的大小以及形成的流形表征分布下所涵盖的泛化尺度有着天壤之别。

而这也为LLM与RL的思想范式融合带来了极大的挑战(当然挑战不局限于此,还包括self play机制与RM奖励信号反馈稀疏性等挑战,这里先暂且按下不表,属于另一相对独立的问题,后续单独阐述)。

因此,我想OpenAI的o1在当前阶段为了尽量逼近AlphaGo那样的E2E(端到端)RL下的极致落子策略效果,且避免直面硬刚上述复杂的结构性挑战,同时必要性的考虑并借鉴拟人类system2慢思考思维模式,采用了一种折中或也许是过渡性策略,从而将long chain reasoning与RL training放在模型网络信号传播与计算中的统一视角来看待,即实现了两种传播策略间计算的平衡与统一,从而衍生出了new scaling law下的扩展和转移的观念...

fe5ec9d76c464c959542957089d23b1a.jpg

后续将继续尝试围绕上述两种传播与计算策略间微妙的平衡与隐含于其中的泛化能力动态演进进行阐释,期待与大家共同探讨~

http://www.lryc.cn/news/438923.html

相关文章:

  • 沉浸式体验和评测Meta最新超级大语言模型405B
  • Python 课程10-单元测试
  • 【嵌入式硬件开发基础】Arduino板常用外设及应用:MPU6050空间运动传感器(简介,类库函数,卡尔曼滤波),继电器(原理介绍,含应用实例/代码)
  • Pandas Series对象创建,属性,索引及运算详解
  • 优化算法(一)—遗传算法(Genetic Algorithm)附MATLAB程序
  • 高等数学 2.3 高阶导数
  • app抓包 chrome://inspect/#devices
  • SAP自动化-ME12批量更新某行价格
  • 数据库系统 第58节 概述源码示例
  • 软件设计师——程序设计语言
  • 【在Linux世界中追寻伟大的One Piece】五种IO模型和阻塞IO
  • nginx实现权重机制(nginx基础配置二)
  • 华为的仓颉和ArkTS这两门语言有什么区别
  • (SERIES10)DM逻辑备份还原
  • Java零基础-StringBuilder类详解
  • 免费爬虫软件“HyperlinkCollector超链采集器v0.1”
  • OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案
  • k8s(kubernetes)的PV / PVC / StorageClass(理论+实践)
  • 前端Excel热成像数据展示及插值算法
  • VBA_NZ系列工具NZ01: VBA二维码应用技术
  • 小明震惊OpenAI 的新模型 01
  • Clickhouse使用笔记
  • 基于高通主板的ARM架构服务器
  • AV1 Bitstream Decoding Process Specification--[2]:符号和缩写术语
  • 【Python爬虫系列】_022.异步文件操作aiofiles
  • GD32E230 RTC报警中断功能使用
  • C/C++语言基础--从C到C++的不同(上)
  • 自动驾驶自动泊车场景应用总结
  • redis常见的数据类型?
  • TCP Analysis Flags 之 TCP ZeroWindow