当前位置: 首页 > news >正文

Learning to summarize from human feedback

Abstract

  • 人工参考总结以及 ROUGE 指标只是我们真实关心的目标(总结质量)的粗略代表。
  • 通过优化人工偏好来显著提升总结质量
  • 使用大量高质量的人类比较来训练一个模型来预测人类偏好的总结
  • 使用这个模型作为奖励函数对总结策略进行强化学习微调
  • 我们模型的效果在 TL;DR 数据集上显著超过了人工参考总结和仅使用有监督微调但大的多的模型,并且能够泛化到 CNN/DM 上得到和人工参考相当的效果而不需任何专门的微调

2 Related work

我们的工作与 Ziegler et al., 2019 的工作非常相似,他们也是训练 Transformer 模型来优化人工反馈。

  • 与我们不同的是,他们是以在线方式训练并且发现得到的模型是高度抽取式的。
  • 和他们相比,我们使用了更大的模型以批量化的方式收集人类反馈,并且做了一些算法上的修改
    • 例如分开策略和价值网络(separating the policy and value networks)。

人工偏好也在其他领域被作为奖励信号来训练模型,例如<

http://www.lryc.cn/news/324300.html

相关文章:

  • 数据库迁移测试
  • ASP .Net Core ILogger日志服务
  • LeetCode 2657.找到两个数组的前缀公共数组
  • 【jvm】jinfo使用
  • C++ Thread 源码 观后 自我感悟 整理
  • 2024阿里云2核2G服务器租用价格99元和61元一年
  • 刚刚!奥特曼剧透GPT-5,将在高级推理功能上实现重大进步
  • uniapp使用Canvas给图片加水印把临时文件上传到服务器
  • 小希的迷宫
  • MySQL索引剖析【了解背后的数据结构】
  • 004——内存映射(基于鸿蒙和I.MAX6ULL)
  • 150 Linux C++ 通讯架构实战6 服务器程序目录规划,makefile编写
  • OpenCV支持哪些类型的文件格式读写?
  • 数据库中使用IN操作效率问题
  • unity学习(67)——控制器Joystick Pack方向
  • MATLAB的使用(一)
  • JMeter并发工具的使用
  • 基于springboot+vue的毕业就业信息管理系统
  • 有什么小程序适合个人开发?
  • 【ARXIV2402】MambaIR
  • 【计算机网络篇】数据链路层(3)差错检测
  • 软件配置管理计划
  • 嵌入式备考错题汇总
  • 38 mars3d 对接地图图层 绘制点线面员
  • 什么是Webhook 和 HTTP Endpoint?
  • 小程序跨端组件库 Mpx-cube-ui 开源:助力高效业务开发与主题定制
  • GDC期间LayaAir启动全球化战略
  • 人工智能之Tensorflow批标准化
  • 自动化的免下车服务——银行、餐厅、快餐店、杂货店
  • Git常用指令总结