当前位置: 首页 > news >正文

论文解读之learning to summarize with human feedback

最近在看大模型训练相关的论文,预计会追溯经典的和最新的训练策略以及微调原理等

本次解读经典论文learning to summarize with human feedback

一、简介

部分生成任务需要对齐人类偏好,但是根据最大化可能性(对数似然)进行微调的模型跟真正使用模型的人的喜好并不能直接匹配,即不对齐。

这种不对齐的原因有:(1)最大化可能性目标对于重要和不重要的错误判别的差距不大。(2)模型会对人类的训练数据放置更大的可能性,其中包括低质量的训练数据。(3)采样时的分布偏移可能会降低表现。尽管第三点能够通过不均匀采样策略改善,比如束搜索,但是可能造成重复和不想要的捏造。

本论文的团队基于GPT3和人类反馈强化学习进行了完整的偏好对齐的流程。

主要的贡献如下:

(1)使用人类反馈训练后在英文摘要生成的任务上表现显著。

(2)比有监督模型对于新领域的泛化性更好

(3)对policy和奖励模型进行了严谨的分析

(4)开源人类反馈数据集

创新:模型更大;收集人类反馈的批次设定;保证标注人员和研究人员的评价一致;一些算法改进,比如将policy和奖励模型分开

二、方法和实验细节

在已经有一个训练过的模型(在强化学习中,这个训练好的模型叫policy)的基础上,对于RLHF,通用的三步如下:

1.使用policy模型对同一个prompt进行推理后给标注员进行对比

2.从以上的对比结果中训练一个奖励模型

3.使用奖励模型和PPO算法进行policy模型的优化

对于同一个摘要生成的数据,结果对比:

三、模型结构

所有模型的结构是GPT3风格的Transformer解码器

先在大规模的文本库中使用预测下一个token的形式进行预训练

奖励模型

人类反馈policy模型

前者最大化奖励模型的偏好,后者有两个作用:(1)鼓励模型去探索好的模式,防止单模式崩溃

(2)让模型减少学习和训练时见过的输出相差较大的偏好。

http://www.lryc.cn/news/514624.html

相关文章:

  • STM32学习(六 )
  • 基于 GitHub API 的 Issue 和 PR 自动化解决方案
  • 56.在 Vue 3 中使用 OpenLayers 通过 moveend 事件获取地图左上和右下的坐标信息
  • 文件本地和OSS上传
  • elementui table 表格 分页多选,保持选中状态
  • MSE+Range案例
  • C# 设计模式(结构型模式):代理模式
  • YOLO——pytorch与paddle实现YOLO
  • 持续大额亏损,销量增幅有限,北汽蓝谷依旧黯然神伤
  • C# OpenCV机器视觉:背景减除与前景分离
  • C语言return与 ? :
  • 【论文阅读】SCGC : Self-supervised contrastive graph clustering
  • python pyqt5+designer的信号槽和动态显示
  • 版本控制系统Helix Core 2024.2增强功能:与OpenTelemetry协议集成、Delta同步和传输等
  • certificate verify failed: unable to get local issuer certificate (_ssl.c:10
  • 关于大一上的总结
  • JavaScript的基础知识
  • 数据结构之单链表(超详解)
  • 告别编程困惑:GDB、冯诺依曼、操作系统速通指南
  • 网络分析工具-tcpdump
  • 基于AI边缘计算盒子的智慧零售场景智能监控解决方案
  • STM32G431收发CAN
  • 如何得到深度学习模型的参数量和计算复杂度
  • 2025年股指期货每月什么时候交割?
  • 自从学会Git,感觉打开了一扇新大门
  • Ansys Discovery 中的网格划分方法:探索模式
  • 关于 AWTK 和 Weston 在旋转屏幕时的资源消耗问题
  • grouped.get_group((‘B‘, ‘A‘))选择分组
  • HTML——66.单选框
  • Couchbase 和数据湖技术的区别、联系和相关性分析