Implicit Reward as the Bridge: A Unified View of SFTand DPO Connections
1.概述
后训练是将大型语言模型(LLMs)应用于现实世界中的关键阶段。在从众多预训练语料库中积累了一般先验知识之后,后训练旨在利用LLMs的潜力以满足不同需求,例如遵循自然语言指令[1, 2, 3, 4, 5]。后训练领域中主要有两种方法。第一种方法从专家演示中学习[6, 7],通常被称为模仿学习,在LLMs的背景下通常称为监督微调(SFT)。第二种方法侧重于从环境信号中学习,主要通过强化学习方法[8, 9, 10]。
在后训练领域中,偏好信号已成为特别有价值的反馈形式,吸引了大量的研究关注[11, 1]。偏好学习通常遵循一个两阶段过程(以下简称为顺序训练):初始阶段的SFT,然后是偏好优化方法,如直接偏好优化(DPO)[12]。然而,这些关键阶段之间的关系主要通过经验观察而非理论基础来理解,SFT通常仅被视为一个准备步骤[13]。尽管这种顺序范式被广泛采用,但在理论视角下,这两种方法如何根本性地相互关联仍然存在显著差距。虽然之前的研究[14]已经广泛探索了LLM学习动态的各个方面,但SFT目标与偏好学习框架之间的理论联系没有得到足够的关注,限制了我们对它们在后训练过程中联合效果的理解。
为了弥补这一差距,我们证明了隐式奖励学习可以作为一个统一的视角连接SFT和偏好学习过程。之前的工作[12]表明,第二阶段的偏好学习可以通过隐式奖励