当前位置: 首页 > news >正文

RLHF,LM模型

LLM(Large Language Model)

RLHF(Reinforcement Learning from Human Feedback),即以强化学习方式依据人类反馈优化语言模型。

RLHF思想:使用强化学习的方式直接优化带有人类反馈的语言模型。RLHF使得在一般文本数据语料库上训练的语言模型能与复杂的人类价值观对齐。
RLHF是一项涉及多个模型和不同训练阶段的复杂概念,主要有三个步骤:
···预训练一个语言模型LM
···聚合问答数据并训练一个奖励模型(Reward Model, RM)
···用强化学习(RL)方式微调LM

  • 预训练语言模型

使用经典的预训练目标训练一个语言模型。使用额外的文本或者条件对这个LM进行微调。基于LM来生成训练奖励模型(RM,也叫偏好模型)的数据,并在这一步引入人类的偏好信息。

  • 训练奖励模型
    RLHF区别于旧范式的开端是RM训练。这一模型接受一系列文本并返回一个标量奖励,树枝上对应人的偏好。可以采用端到端的方式用LM建模,或者用模块化的系统建模(比如对输出进行排名,再将排名转换为奖励)。这一奖励数值将对后续无缝接入现有的RL算法至关重要。
    关于模型选择方面,RM可以是另一个经过微调的LM,也可以是根据偏好数据从头开始训练的LM。关于训练文本方面,RM的提示-生成对文本是从预定义数据集中采样生成的,并用初始的LM给这些提示
http://www.lryc.cn/news/513789.html

相关文章:

  • 【机器学习】工业 4.0 下机器学习如何驱动智能制造升级
  • REST与RPC的对比:从性能到扩展性的全面分析
  • MATLAB中将MAT文件转换为Excel文件
  • leetcode hot 100 跳跃游戏2
  • 【Cesium】八、Cesium 默认地图不显示,不加载默认Bing地图
  • 【新方法】通过清华镜像源加速 PyTorch GPU 2.5安装及 CUDA 版本选择指南
  • MySQL的sql操作有哪些
  • ArcGIS计算矢量要素集中每一个面的遥感影像平均值、最大值等统计指标
  • EasyExcel(环境搭建以及常用写入操作)
  • 探索Milvus数据库:新手入门指南(tencent云)
  • MySQL:一文弄懂时区time_zone
  • 基于python的天气可视化系统
  • STM32 高级 WIFi案例1:测试AT指令
  • SpringCloud微服务架构
  • WebSocket封装
  • 基于Flask后端框架的均值填充
  • SQL-Server链接服务器访问Oracle数据
  • Python中continue语句的使用
  • JavaScript的diff库详解(示例:vue项目实现两段字符串比对标黄功能)
  • 自动驾驶3D目标检测综述(六)
  • the request was rejected because no multipart boundary was found
  • HarmonyOS-面试整理
  • [C#] 「Unity」「游戏开发」如何在Canvas下的Button控件下实例化Image元素
  • Nginx1.20.2-Linux-安装
  • Elasticsearch名词解释
  • Node项目——从0开始构建且共享至Gitee
  • layui多图上传,tp8后端接收处理
  • QEMU网络配置简介
  • 28.Marshal.PtrToStringAnsi C#例子
  • 基于feapder爬虫与flask前后端框架的天气数据可视化大屏