当前位置: 首页 > news >正文

Fine-Tuning Language Models from Human Preferences

Abstract

奖励学习(reward learning)可以将强化学习(RL)应用到由人类判断定义奖励的任务中,通过询问人类问题来构建奖励模型。奖励学习的大部分工作使用了模拟环境,但是关于价值的复杂信息经常是以自然语言的形式表达的。我们相信语言奖励学习是使强化学习在现实世界任务中实用且安全的关键。在本文中,我们基于语言模型生成式预训练方面的进展,将奖励学习应用于四种自然语言任务:

  • continuing text with positive sentiment or physically descriptive language
  • summarization tasks on the TL;DR and CNN/Daily Mail datasets.

对于风格延续(stylistic continuation)任务,我们仅使用人类评估的 5,000 个比较就取得了良好的结果。
对于 summarization 任务,只使用 60,000 个比较训练的模型可以从输入中复制整个句子但跳过不相关的序言。
根据人类标注者的评估,这带来了合理的 ROUGE 分数和非常好的性能,但可能是利用了标注者依赖简单启发法这一事实。

1. Introduction

我们希望将强化学习应用于仅由人类判断定义的复杂任务,在这些任务中我们只能通过询问人类来判断结果是好还是坏。为了实现这个目标,我们首先利用人类标注来训练一个 reward model, 然后优化该模型。通过与人类的交互来学习这种模型已有很长的历史,但最近才被用于现代深度学习,而且只被用于相对简单的模拟环境 (

http://www.lryc.cn/news/269925.html

相关文章:

  • 提升数据库性能的关键指南-Oracle AWR报告
  • 云计算IaaS、PaaS和SaaS之
  • 解锁大数据世界的钥匙——Hadoop HDFS安装与使用指南
  • 写在2023岁末:敏锐地审视量子计算的当下
  • C/C++学习笔记十三 C++中的重载运算符
  • Java 实现自动获取法定节假日
  • 湘潭大学-2023年下学期-c语言-作业0x0a-综合1
  • 网络协议-BIO实战和NIO编程
  • Word 将页面方向更改为横向或纵向
  • 关键字:abstract关键字
  • 从PDF中提取图片
  • 推荐:一个不错的介绍Apache Doris的PPT
  • 【Python_PySide2学习笔记(二十二)】进度对话框QProgressDialog类的基本用法
  • 使用rust读取usb设备ACR122U的nfc卡片id
  • servlet总结
  • Nacos2.1.2改造适配达梦数据库7.0
  • TPRI-DMP平台介绍
  • oracle-存储结构
  • 获取PG库 database与 user 创建时间以及cluster初始化时间
  • 【12.29】转行小白历险记-刷算法05
  • docker部署kafka zookeeper模式集群
  • Apache Flink连载(二十一):Flink On Yarn运行原理-Yarn Application模式
  • 《深入理解C++11:C++11新特性解析与应用》笔记五
  • Y9000P + ubuntu22.04 配置Anaconda+pycharm +pytorch
  • 使用Ubuntu编译FFmpeg生成Android动态库/静态库
  • 【AIGC-图片生成视频系列-2】八仙过海,各显神通:AI生成视频相关汇总剖析
  • SpringBoot集成RabbitMq消息队列【附源码】
  • MySQL数据库的安装与环境配置
  • 【广州华锐互动】VR科技科普展厅平台:快速、便捷地创建出属于自己的虚拟展馆
  • XML Extension Supplement