当前位置: 首页 > news >正文

NLP论文速读(ICML 2024)|面相对齐大语言模型的迁移和合并奖励模型方法

论文速读|Transforming and Combining Rewards for Aligning Large Language Models

论文信息:

简介:

       本文探讨了如何使大型语言模型(LLMs)与人类偏好对齐。传统的对齐方法是先从偏好数据中学习一个奖励模型,然后使用这个奖励模型来更新语言模型。这种方法的背景是,我们希望语言模型的输出具有某些期望的属性,例如有帮助、无害、真实或有创造性。然而,这种方法面临两个主要问题:奖励模型的单调变换如何影响对齐效果,以及如何将多个奖励模型结合起来以对齐到多个属性。

       本文的动机是通过概率解释对齐过程来改进语言模型的对齐效果。作者认为,对齐的目标是使模型输出符合特定属性的后验分布。因此,对齐到多个属性的目标是生成在所有属性上都“好”的输出样本。这种概率解释需要定义输出何时被认为是“好”的。在从偏好数据中学习的奖励模型的背景下,作者认为如果输出的奖励值大于某个特定于提示的参考值,则该输出是“好”的。

论文方法:

       本文提出了一种称为“LSC-变换”(log-sigmoid-centered transformation)的方法来变换奖励模型。这种方法包括以下步骤:

      对齐目标的形式化:首先定义对齐目标,即生成在特定属性上被认为是“好”的输出样本的分布。

      奖励变换:作者推导出一种自然的变换选择,即对中心化的奖励应用log-sigmoid函数。这种变换有两个重要属性:

      强调改进表现不佳的输出:通过减少非常高奖励值的边际效用,鼓励模型改进表现不佳的提示,并阻止模型通过优化超出奖励模型有效范围的奖励来进行“奖励黑客攻击”。

      奖励的合理聚合:通过将变换后的奖励求和来实现逻辑与(AND)操作,即变换后的奖励之和对应于输出在所有测量属性上都是“好”的概率。

论文实验:

      Figure 3展示了使用变换后的奖励与未变换的奖励进行对齐时的改进情况。图中比较了两种评估策略下的对齐模型相对于SFT(Supervised Finetuning)模型的胜率。

      评估策略包括:

      1)使用由PALM-2评估器判断的提示,比较对齐策略和随机SFT样本之间的胜率。

      2)使用T5-XXL评估器,与SFT分位数(帮助性为85%,无害性为95%)进行比较的胜率。

      结果显示,使用变换后的奖励进行对齐在所有KL距离水平上均优于使用原始奖励进行对齐。

论文链接:

https://arxiv.org/pdf/2402.00742

http://www.lryc.cn/news/502982.html

相关文章:

  • 蓝桥杯我来了
  • Vue3+TypeScript+AntVX6实现Web组态(从技术层面与实现层面进行分析)内含实际案例教学
  • 【LeetCode】每日一题 2024_12_13 K 次乘运算后的最终数组 I(暴力)
  • Plant simulation、Flexsim、Automod、Emulate3D、VisuaComponent仿真软件对比
  • 深度学习day4|用pytorch实现猴痘病识别
  • 批量导出工作簿中高清图片-Excel易用宝
  • 外观模式的理解和实践
  • linux离线安装部署redis
  • 网管平台(基础篇):路由器的介绍与管理
  • 数据结构——跳表
  • 活动预告 |【Part2】Microsoft Azure 在线技术公开课:基础知识
  • PyCharm如何导入库( 包 )
  • 【DevOps基础篇】SCM(Source Code Management)
  • DDS—RTPS一致性测试案例分析
  • 【深度学习入门】深度学习介绍
  • 数值分析—非线性方程的数值解
  • LDR6500应用:C转DP线材双向投屏开启全新体验
  • 路径规划之启发式算法之十六:和声搜索算法(Harmony Search, HS)
  • Redis - 实战之 全局 ID 生成器 RedisIdWorker
  • matlab 连接远程服务器
  • 在服务器自主选择GPU使用
  • 【设计模式】享元模式(Flyweight Pattern)
  • 题目 1688: 数据结构-字符串插入
  • 28.攻防世界PHP2
  • QML QT6 WebEngineView 、Echarts使用和数据交互
  • SpringBoot 整合 Mail 轻松实现邮件自动推送
  • MyBatis 核心知识与实践
  • 机器学习期末速成
  • Linux中的线程
  • AI大模型学习笔记|多目标算法梳理、举例