当前位置: 首页 > news >正文

Secrets of RLHF in Large Language Models Part I: PPO

本文是LLM系列文章,针对《Secrets of RLHF in Large Language Models Part I: PPO》的翻译。

大型语言模型中RLHF的秘密(上):PPO

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 人类反馈的强化学习
  • 4 有益和无害的奖励模型
  • 5 PPO的探索
  • 6 评估和讨论
  • 局限性

摘要

大型语言模型(LLM)为通用人工智能的发展制定了蓝图。它的主要目标是作为一个以人为本(乐于助人、诚实无害)的助手。与人类保持一致具有至关重要的意义,人类反馈强化学习(RLHF)成为支撑这一追求的关键技术范式。目前的技术路线通常包括衡量人类偏好的奖励模型、优化政策模型输出的近端策略优化(PPO)以及提高逐步推理能力的过程监督。然而,由于奖励设计、环境交互和代理训练的挑战,再加上大型语言模型的巨大试错成本,人工智能研究人员在激励LLM的技术对齐和安全着陆方面存在重大障碍。RLHF的稳定训练仍然是一个谜。
在第一份报告中,我们剖析了RLHF的框架,重新评估了PPO的内部工作,并探讨了组成PPO算法的部分如何影响策略代理训练。我们确定策略约束是PPO算法有效实现的关键因素。因此,我们探索了PPO算法的高级版本PPO max,以有效地提高策略模型的训练稳定性。基于我们的主要结果,我们与SFT模型和ChatGPT进行了RLHF能力的全面分析。除了额外的定性结果外,我们甚至发现,通过我们的算法成功训练的LLM通常可以更好地理解查询的深层含义,其响应更能直接击中人们的灵魂。
开源实现的缺乏对LLM一致性的调查提出了重大挑战。因此,我们迫切希望发布技术报告、奖励模型和PPO代码,旨在为LLM的发展做出适度贡献。

1 引言

2 相关工作

3 人类反馈的强化学习

4 有益和无害的奖励模型

5 PPO的探索

6 评估和讨论

局限性

探索RLHF确实是一个有价值但孤独的方向,我们很高兴实验室的核心骨干能够坚定地探索一个不确定的方向。此外,在过去的几个月里,每个人都充满了激情和动力。RLHF不仅允许模型实现人与人之间的一致性,而且似乎可以使每个人的意愿一致。
千里之行始于足下。尽管我们已经迈出了RLHF的第一步,但由于时间和资源的限制,这项工作仍有以下限制:
缩放定律。虽然我们的研究主要集中在70亿参数的模型上,但我们尚未研究模型大小和数据规模对RLHF性能的影响。
奖励模型。我们的实验是基于公开的英语人类偏好数据集和少量自建的中文数据。我们所掌握的数据的质量和数量可以说不足以对奖励模型进行全面评估。
评估指标。我们的评估标准在很大程度上依赖于手动评估和GPT-4自动评估。我们没有利用大量可用的基准和NLP任务来对我们的模型进行详细评估。
绩效指标。我们在PPO阶段的重点是实现稳定性,而不是提高最终性能。虽然稳定至关重要,但它并不一定能保证结果的改善。此外,奖励分数不能可靠地用作预测训练阶段期间RLHF表现的指标。这意味着需要在训练阶段寻求一个更合适的绩效指标。

http://www.lryc.cn/news/169579.html

相关文章:

  • Java手写AVL树应用拓展案例
  • vue3+ts+uniapp小程序封装获取授权hook函数
  • 绘图(一)弹球小游戏
  • uniapp滑动事件
  • 入门人工智能 —— 学习 python 使用 IDE :vscode 完成编程 (2)
  • MyBatis字段名和属性名不一样的解决方案
  • Postman应用——Collection、Folder和Request
  • 驱动开发,stm32mp157a开发板的led灯控制实验
  • 黑客入侵机构,导致2万条信息被卖
  • 循环购:让消费者和商家共赢的新型电商模式
  • 分布式缓冲-Redis
  • C# 流Stream详解(3)——FileStream源码
  • C语言的文件操作(炒详解)
  • 27.基于ADS的不等分威尔金森功分器设计
  • Linux自用命令
  • clickhouse union all之后数据量不一致
  • 力扣刷题19-删除链表的倒数第N个节点
  • Unity中的简单数据存储办法
  • Pytorch-MLP-CIFAR10
  • SQL2 查询多列
  • 算法分享三个方面学习方法(做题经验,代码编写经验,比赛经验)
  • 爬虫 — 验证码反爬
  • 视频图像处理算法opencv模块硬件设计图像颜色识别模块
  • 目标检测网络之Fast-RCNN
  • Golang Gorm 创建HOOK
  • 计算机视觉的应用15-图片旋转验证码的角度计算模型的应用,解决旋转图片矫正问题
  • 【Seata】分布式事务问题和理论基础
  • 文件打包解包的方法
  • npm 清缓存(重新安装node-modules)
  • sqlserver查询表中所有字段信息