当前位置：首页 > news >正文

14.基于人类反馈的强化学习（RLHF）技术详解

news 2025/8/10 4:24:16

基于人类反馈的强化学习（RLHF）技术详解

RLHF 技术拆解

RLHF 是一项涉及多个模型和不同训练阶段的复杂概念，我们按三个步骤分解：

预训练一个语言模型 (LM) ；
训练一个奖励模型 (Reward Model，RM) ；
用强化学习 (RL) 方式微调 LM。

请添加图片描述

步骤一：使用SFT微调预训练语言模型

先收集⼀个提示词集合，并要求标注⼈员写出⾼质量的回复，然后使⽤该数据集以监督的⽅式微调预训练的基础模型。对这⼀步的模型，OpenAI 在其第⼀个流⾏的 RLHF 模型 InstructGPT 中使⽤了较⼩版本的 GPT-3; Anthropic 使⽤了 1000 万～ 520 亿参数的 Transformer 模型进⾏训练；DeepMind 使⽤了⾃家的 2800 亿参数模型 Gopher。

请添加图片描述

步骤二：训练奖励模型（Reward Model）

RM 的训练是 RLHF 区别于旧范式的开端。这⼀模型接收⼀系列⽂本并返回⼀个标量奖励，数值上对应⼈的偏好。我们可以⽤端到端的⽅式⽤ LM 建模，或者⽤模块化的系统建模 (⽐如对输出进⾏排名，再将排名转换为奖励) 。这⼀奖励数值将对后续⽆缝接⼊现有的 RL 算法⾄关重要。

请添加图片描述

步骤三：使用 PPO 优化微调语言模型

将微调任务表述为 RL 问题:

首先，该策略 (policy) 是一个接受提示并返回一系列文本 (或文本的概率分布) 的 LM。这个策略的行动空间 (action space) 是 LM 的词表对应的所有词元 (一般在 50k 数量级)

观察空间 (observation space) 是可能的输入词元序列，也比较大 (词汇量 ^ 输入标记的数量) 。

奖励函数是偏好模型和策略转变约束 (Policy shiftconstraint) 的结合。

PPO 算法确定的奖励函数具体计算如下：将提示 x 输入初始 LM 和当前微调的 LM，分别得

到了输出文本 y1, y2，将来自当前策略的文本传递给 RM 得到一个标量的奖励 rθ 。将两个模型的生成文本进行比较计算差异的惩罚项KL散度。

这一项被用于惩罚 RL 策略在每个训练批次中生成大幅偏离初始模型，以确保模型输出合理连贯的文本。如果去掉这一惩罚项可能导致模型在优化中生成乱码文本来愚弄奖励模型提供高奖励值

请添加图片描述

请添加图片描述

使用 Hugging Face TRL 实现 PPO 流程图解

请添加图片描述

http://www.lryc.cn/news/372882.html

相关文章：

Linux Radix tree简介

maven 下载jar包加载顺序

新增多种图表类型，新增视频、流媒体、跑马灯组件，DataEase开源数据可视化分析工具v2.7.0发布

supOS工业操作系统的由来

6spark期末复习

C语言背景⾊、线条颜⾊和填充颜⾊有什么区别？何时使⽤？

Python 植物大战僵尸游戏【含Python源码 MX_012期】

搜索文档的好助手

如何计算 GPT 的 Tokens 数量？

在远程服务器上安装虚拟环境

《站在2024年的十字路口：计算机专业是否仍是高考生的明智之选？》

从零手写实现 nginx-23-nginx 对于 cookie 的操作

Python语言例题集（015）

Halcon C++ XLD 数据写入图片

一文入门vim

植物ATAC-seq文献集锦（三）——果实发育篇

在自己的电脑上搭建我的世界Java版服务器

1.PyQt6库和工具库QTDesigner安装

Hbase搭建教程

利用three-csg-ts对做物体交互式挖洞

腾讯云对象存储不绑定自定义备案域名不给下载应该如何处理？

C 语言实例 - 输出数组

回溯算法练习题（2024/6/10）

机器学习--线性模型和非线性模型的区别？哪些模型是线性模型，哪些模型是非线性模型？

[linux] Qwen2Tokenizer报错 transformers版本问题

算法刷题笔记单链表（C++实现）

Oracle 排查慢SQL

java技术专家面试指南80问【java学习+面试宝典】（七）

4机器学习期末复习

chatgpt: int t[] int *t 区别