当前位置: 首页 > news >正文

Implicit Reward as the Bridge: A Unified View of SFTand DPO Connections

1.概述

        后训练是将大型语言模型(LLMs)应用于现实世界中的关键阶段。在从众多预训练语料库中积累了一般先验知识之后,后训练旨在利用LLMs的潜力以满足不同需求,例如遵循自然语言指令[1, 2, 3, 4, 5]。后训练领域中主要有两种方法。第一种方法从专家演示中学习[6, 7],通常被称为模仿学习,在LLMs的背景下通常称为监督微调(SFT)。第二种方法侧重于从环境信号中学习,主要通过强化学习方法[8, 9, 10]。

        在后训练领域中,偏好信号已成为特别有价值的反馈形式,吸引了大量的研究关注[11, 1]。偏好学习通常遵循一个两阶段过程(以下简称为顺序训练):初始阶段的SFT,然后是偏好优化方法,如直接偏好优化(DPO)[12]。然而,这些关键阶段之间的关系主要通过经验观察而非理论基础来理解,SFT通常仅被视为一个准备步骤[13]。尽管这种顺序范式被广泛采用,但在理论视角下,这两种方法如何根本性地相互关联仍然存在显著差距。虽然之前的研究[14]已经广泛探索了LLM学习动态的各个方面,但SFT目标与偏好学习框架之间的理论联系没有得到足够的关注,限制了我们对它们在后训练过程中联合效果的理解。

        为了弥补这一差距,我们证明了隐式奖励学习可以作为一个统一的视角连接SFT和偏好学习过程。之前的工作[12]表明,第二阶段的偏好学习可以通过隐式奖励

http://www.lryc.cn/news/595074.html

相关文章:

  • React基础(1)
  • 深入解析Hadoop MapReduce Shuffle过程:从环形缓冲区溢写到Sort与Merge源码
  • 【Docker#3】Window 和 Linux 上 docker安装 相关知识
  • 华控的科技布局——全球化战略与合作生态
  • 多级缓存(亿级流量缓存)
  • CodeRush AI 助手进驻 Visual Studio:AiGen/AiFind 亮相(二)
  • 初识网络原理
  • CentOS 7安装 FFmpeg问题可以按照以下步骤进行安装
  • 数据结构:找出字符串中重复的字符(Finding Duplicates in a String)——使用哈希表
  • 使用Python绘制专业柱状图:Matplotlib完全指南
  • 4x4矩阵教程
  • 通过TPLink路由器进行用户行为审计实战
  • 首家!数巅AskBI通过中国信通院数据分析智能体专项测试
  • 基于Python的多传感器融合的障碍物检测与避障演示
  • C++实战案例:从static成员到线程安全的单例模式
  • 基于深度学习的图像分类:使用ResNet实现高效分类
  • python实现接收九数云的异常分析指标推送通知
  • 从env到mm_struct:环境变量与虚拟内存的底层实现
  • stm32mp157f-dk2安装镜像并且部署qt全流程
  • 西门子 WinCC预定义报警控件过滤条件
  • [特殊字符] Java反射从入门到飞升:手撕类结构,动态解析一切![特殊字符]
  • 【PHP安全】免费解密支持:zend52、zend53、zend54好工具
  • 基于 HAProxy 搭建 EMQ X 集群
  • 【正常配置了beast扩展,phpinfo信息也显示了,但是就是不运行】
  • 代码随想录算法训练营第三十八天| 322. 零钱兑换 279.完全平方数 139.单词拆分
  • 数据结构自学Day11-- 排序算法
  • 归并排序:优雅的分治排序算法(C语言实现)
  • 【开源】基于 C# 编写的轻量级工控网关和 SCADA 组态软件
  • 45.sentinel自定义异常
  • C++ Lambda 表达式详解:从基础到实战