当前位置: 首页 > news >正文

OpenAI:Let’s Verify Step by Step 解读

前言

Let’s Verify Step by Step

OpenAI的一篇经典论文。

  • 链接:https://arxiv.org/pdf/2305.20050
  • github: https://github.com/openai/prm800k

实验

目的

  • 对于multi step reasoning的问题,模型经常出现逻辑的错误
  • 讨论结果监督(Outcome-supervised Reward Models ,ORMs)和过程监督(Process-supervised Reward Models,PRMs)的优劣

ORM和PRM的区别

  • ORM只关注于结果对与否(存在结果恰好正确,但其中的reasoning的部分出现错误,属于误判样本), PRM关注于某个过程的对与否
  • PRM可以对与错误的样本给出错误的步骤,而ORM给不出错误的细节

实验细节

  • 使用GPT-4训练得到ORM和PRM
  • 利用GPT-4当作生成器,对一个prompt生成多个结果(BON),选择其中一个结果,作为final response进行评估

数据构成

对每个步骤进行人工的标注(对与错), 过程结果和最终结果就都有了,但也做了更多的优化:选择了更具有迷惑性的样本(简单来说就是更难的样本,模型更容易判断错误的样本)

结果

比较三种方式来给出最终的top1作为评估的回答

  • ORM
  • PRM
  • vote(类似于model ensemble)

横坐标为每个prompt生成的response数量,可以发现随着数量的增多,PRM远超于ORM和vote,并且ORM也大于vote方法,说明ORM也是有一定的作用的,但是在reasoning的过程中进行反馈的作用更大。

http://www.lryc.cn/news/576512.html

相关文章:

  • 告别固定密钥!在单一账户下用 Cognito 实现 AWS CLI 的 MFA 单点登录
  • 数据结构1 ——数据结构的基本概念+一点点算法
  • SpringMVC系列(六)(Restful架构风格(中))
  • 太速科技-670-3U VPX PCIe桥扩展3路M.2高速存储模块
  • 矩阵的条件数(Condition Number of a Matrix)
  • 分布式电源采集控制装置:江苏光伏电站的“智能调度中枢
  • 【云桌面容器KasmVNC】如何关闭SSL使用HTTP
  • pytest 中的重试机制
  • 【Linux】理解进程状态与优先级:操作系统中的调度原理
  • 鸿蒙5:布局组件
  • docker通过小实例使用常用命令
  • 能否仅用两台服务器实现集群的高可用性??
  • 【算法深练】单调栈:有序入栈,及时删除垃圾数据
  • 嵌入式网络通信与物联网协议全解析:Wi-Fi、BLE、LoRa、ZigBee 实战指南
  • libxlsxwriter: 一个轻量级的跨平台的C++操作Excel的开源库
  • 【HarmonyOS NEXT】跳转到华为应用市场进行应用下载并更新
  • COLT_CMDB_linux_zookeeperInfo_20250628.sh
  • cocos creator 3.8 - 精品源码 -《文字大师》(移一笔变新字)
  • Insar 相位展开真实的数据集的生成与下载(随机矩阵放大,zernike 仿真包裹相位)
  • Cesium快速入门到精通系列教程十一:Cesium1.74中高性能渲染上万Polyline
  • SLAM中的非线性优化-2D图优化之零空间(十五)
  • 变长字节的数字表示法vb224
  • 互联网大厂Java求职面试实录
  • c# sugersql 获取子表数据排序
  • Java 识别和处理 HTML 标签内容
  • Spring MVC参数解析:深入剖析415异常与@RequestBody处理机制问题场景
  • Flutter基础(FFI)
  • pytorch中的几个概念
  • NLP中的同义词替换及我踩的坑
  • 《Python 实现 B 站视频信息爬虫:从批量获取到 CSV 保存》