当前位置：首页 > news >正文

OpenAI：Let’s Verify Step by Step 解读

news 2025/6/29 12:26:12

前言

Let’s Verify Step by Step

OpenAI的一篇经典论文。

链接：https://arxiv.org/pdf/2305.20050
github： https://github.com/openai/prm800k

实验

目的

对于multi step reasoning的问题，模型经常出现逻辑的错误
讨论结果监督（Outcome-supervised Reward Models ，ORMs）和过程监督（Process-supervised Reward Models，PRMs）的优劣

ORM和PRM的区别

ORM只关注于结果对与否（存在结果恰好正确，但其中的reasoning的部分出现错误，属于误判样本）， PRM关注于某个过程的对与否
PRM可以对与错误的样本给出错误的步骤，而ORM给不出错误的细节

实验细节

使用GPT-4训练得到ORM和PRM
利用GPT-4当作生成器，对一个prompt生成多个结果（BON），选择其中一个结果，作为final response进行评估

数据构成

对每个步骤进行人工的标注（对与错），过程结果和最终结果就都有了，但也做了更多的优化：选择了更具有迷惑性的样本（简单来说就是更难的样本，模型更容易判断错误的样本）

结果

比较三种方式来给出最终的top1作为评估的回答

ORM
PRM
vote（类似于model ensemble）

横坐标为每个prompt生成的response数量，可以发现随着数量的增多，PRM远超于ORM和vote，并且ORM也大于vote方法，说明ORM也是有一定的作用的，但是在reasoning的过程中进行反馈的作用更大。

查看全文

http://www.lryc.cn/news/576512.html

告别固定密钥！在单一账户下用 Cognito 实现 AWS CLI 的 MFA 单点登录

数据结构1 ——数据结构的基本概念+一点点算法

SpringMVC系列（六）（Restful架构风格（中））

太速科技-670-3U VPX PCIe桥扩展3路M.2高速存储模块

矩阵的条件数（Condition Number of a Matrix）

分布式电源采集控制装置：江苏光伏电站的“智能调度中枢

【云桌面容器KasmVNC】如何关闭SSL使用HTTP

pytest 中的重试机制

【Linux】理解进程状态与优先级：操作系统中的调度原理

鸿蒙5：布局组件

docker通过小实例使用常用命令

能否仅用两台服务器实现集群的高可用性？？

【算法深练】单调栈：有序入栈，及时删除垃圾数据

嵌入式网络通信与物联网协议全解析：Wi-Fi、BLE、LoRa、ZigBee 实战指南

libxlsxwriter: 一个轻量级的跨平台的C++操作Excel的开源库

【HarmonyOS NEXT】跳转到华为应用市场进行应用下载并更新

COLT_CMDB_linux_zookeeperInfo_20250628.sh

cocos creator 3.8 - 精品源码 -《文字大师》(移一笔变新字)

Insar 相位展开真实的数据集的生成与下载(随机矩阵放大，zernike 仿真包裹相位)

Cesium快速入门到精通系列教程十一：Cesium1.74中高性能渲染上万Polyline

SLAM中的非线性优化-2D图优化之零空间（十五）

Spring MVC参数解析：深入剖析415异常与@RequestBody处理机制问题场景

Flutter基础（FFI）

pytorch中的几个概念

NLP中的同义词替换及我踩的坑

《Python 实现 B 站视频信息爬虫：从批量获取到 CSV 保存》

前言

实验

目的

ORM和PRM的区别

实验细节

数据构成

结果

相关文章：