当前位置: 首页 > news >正文

LLMs 用强化学习进行微调 RLHF: Fine-tuning with reinforcement learning

让我们把一切都整合在一起,看看您将如何在强化学习过程中使用奖励模型来更新LLM的权重,并生成与人对齐的模型。请记住,您希望从已经在您感兴趣的任务上表现良好的模型开始。您将努力使指导发现您的LLM对齐。首先,您将从提示数据集中传递一个提示。在这种情况下,“A dog is…”,传递给指导LLM,然后生成一个完成,这种情况下是"… a furry animal."一只毛茸茸的动物。接下来,您将将此完成和原始提示一起发送给奖励模型,作为提示完成对。奖励模型基于其训练的人类反馈评估对,然后返回一个奖励值。较高的值,如此处显示的0.24,表示更加对齐的响应。较不对齐的响应将获得较低的值,例如-0.53。然后,您将将这个提示完成对的奖励值传递给强化学习算法,以更新LLM的权重,并使其生成更加对齐、奖励更高的响应。
在这里插入图片描述

我们将称这个中间版本的模型为RL更新的LLM。这一系列步骤组成了RLHF过程的单次迭代。
在这里插入图片描述

这些迭代将继续进行一定数量的回合,类似于其他类型的微调。在这里,您可以看到RL更新的LLM生成的完成获得了更高的奖励分数,表明权重的更新导致了更加对齐的完成。
在这里插入图片描述

如果这个过程运行良好,您将看到在每次迭代后奖励得到改善,
在这里插入图片描述

因为模型生成的文本越来越符合人类的偏好。
在这里插入图片描述

您将继续进行这个迭代过程,直到您的模型根据某些评估标准对齐。例如,达到您定义的有用性的阈值。您还可以定义一个最大步数,例如20,000,作为停止标准。在这一点上,让我们将经过微调的模型称为与人对齐的LLM。
在这里插入图片描述

我们尚未讨论的一个细节是强化学习算法的确切性质。
在这里插入图片描述

这是一个算法,它接受奖励模型的输出,并使用它来随着时间的推移更新LLM模型的权重,以增加奖励分数。有几种不同的算法可以用于RLHF过程的这一部分。一个常见的选择是近端策略优化Proximal Policy Optimization,简称PPO。
在这里插入图片描述

PPO是一个相当复杂的算法,您不必熟悉所有细节就能使用它。然而,这可能是一个难以实现的算法,如果您在使其工作时遇到问题,更详细地了解其内部工作原理可能有助于您进行故障排除。为了更详细地解释PPO算法的工作原理,我邀请了我的AWS同事Ek为您提供有关技术细节的更深入了解。下一个视频是可选的,您可以随意跳过它,转到奖励作弊视频。您不需要这里的信息来完成测验或本周的实验。但是,我鼓励您查看这些详细信息,因为RLHF在确保LLM在部署中以安全和对齐的方式行为方面变得越来越重要。

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/sAKto/rlhf-fine-tuning-with-reinforcement-learning

http://www.lryc.cn/news/182502.html

相关文章:

  • iMazing 2.17.10官方中文版含2023最新激活许可证码
  • 如何在windows系统环境下使用tail命令查看日志
  • 设计模式——访问者模式
  • 一文读懂UTF-8的编码规则
  • 二叉树题目:路径总和 II
  • Qt model/view 理解01
  • c与c++中的字符串
  • Android 获取IP地址的Ping值 NetworkPingUtils
  • 数据集笔记:OpenCelliD(手机基站开放数据库)
  • Windows电脑多开器的使用心得分享
  • Android Studio实现简易计算器(带横竖屏,深色浅色模式,更该按钮颜色,selector,style的使用)
  • 虚拟机通过nat模式端口映射实现内网穿透
  • 计算机网络(六):应用层
  • Sublime Text 4 for Mac激活下载
  • 存在负权边的单源最短路径的原理和C++实现
  • 15-自动化测试——理论知识
  • 学信息系统项目管理师第4版系列17_干系人管理
  • 专业PDF编辑阅读工具PDF Expert mac中文特点介绍
  • 处理机调度的概念,层次联系以及七状态模型
  • PS 图层剪贴蒙版使用方法
  • 总结1008
  • 软件工程从理论到实践客观题汇总(头歌第九章至第十七章)
  • ubuntu与win之间共享文件夹
  • flink处理函数--副输出功能
  • Java数据结构————队列
  • 办公网络构建
  • 单层神经网络
  • htb-cozyhosting
  • 网络安全渗透测试工具之skipfish
  • 【Rust】文件系统