当前位置：首页 > news >正文

Post-train 入门（1）：SFT / DPO / Online RL 概念理解和分类

news 2025/8/10 1:09:27

Post-train 的分类

SFT
DPO
online RL

以下是后训练（Post-train）中三种主流方法的对比表格，涵盖核心定义、优化目标、数据需求、优缺点及典型应用场景：

分类	核心定义	优化目标	数据需求	优点	缺点	典型应用场景
SFT（监督微调）	在预训练模型基础上，使用人工标注的高质量指令-响应对数据进行微调，让模型学习特定任务的输出格式和知识。	最小化模型输出与标注数据的交叉熵损失，使模型生成符合人类预期的“标准答案”。	依赖高质量的人工标注数据（如指令-响应对），数据规模通常较小（数万至数十万样本）。	1. 训练简单稳定，易实现； 2. 能快速对齐基础任务格式； 3. 对计算资源要求较低。	1. 难以捕捉复杂的人类偏好（如安全性、相关性）； 2. 泛化能力有限，对未见过的指令可能生成错误结果。	基础对话系统、特定任务指令对齐（如翻译、摘要）、模型快速适配新领域。
DPO（直接偏好优化）	跳过显式奖励模型训练，直接通过人类偏好数据（如“更好/更差”的样本对）优化策略，将偏好建模嵌入模型损失函数。	最大化模型生成“偏好样本”的概率，同时通过KL约束保持与参考模型（如SFT模型）的分布接近。	需要人类标注的偏好对数据（如 $y_{\text{好}}, y_{\text{差}})$ ），数据规模中等。	1. 省去奖励模型训练，简化流程； 2. 训练稳定性优于传统RLHF； 3. 对域内任务拟合效果好。	1. 依赖高质量偏好标注，标注成本高； 2. 域外泛化能力较弱； 3. 难以处理复杂奖励信号。	对齐人类偏好的对话模型（如ChatGPT后期优化）、内容生成质量提升（如文本、图像）。
Online RL（在线强化学习）	模型在与环境交互中实时生成样本，基于实时反馈（奖励）动态更新策略，无需依赖预收集的静态数据集。	最大化累积奖励，通过探索不同生成路径找到最优策略，同时平衡“探索”与“利用”。	无需预收集数据，依赖实时奖励信号（可来自benchmark、人类反馈或其他评估器）。	1. 能适应动态环境和复杂奖励； 2. 域外泛化能力强； 3. 可持续优化策略。	1. 训练复杂，需设计高效探索机制； 2. 计算成本高（实时生成与反馈）； 3. 可能存在奖励黑客风险。	动态任务优化（如文本到图像生成的细节控制）、需要推理能力的任务（如数学解题、代码生成）。

关键区别总结：

数据依赖：SFT和DPO依赖静态标注数据，Online RL依赖实时反馈；
优化粒度：SFT关注“正确输出”，DPO关注“相对偏好”，Online RL关注“全局最优策略”；
适用阶段：SFT通常作为后训练的基础步骤，DPO和Online RL用于进一步优化偏好对齐和复杂任务能力。

Alignment in Diffusion 的分类

这里是 DPO, Online RL for diffusion 的分类，不包括 SFT。

上图来源于 https://github.com/xie-lab-ml/awesome-alignment-of-diffusion-models

http://www.lryc.cn/news/612014.html

相关文章：

未给任务“Fody.WeavingTask”的必需参数“IntermediateDir”赋值。 WpfTreeView

嵌入式开发学习———Linux环境下IO进程线程学习（五）

【PZSDR P201MINI】 P201Mini 软件无线电开发板：紧凑型射频系统的性能标杆

Debian系统更新实现

在 Neo4j实现虚拟关系（间接）的可视化

（Python）待办事项升级网页版（html）（Python项目）

识别 Base64 编码的 JSON、凭证和私钥

IntelliJ IDEA 2025.1.4.1 中文版

防火墙（firewalld）

医疗AI中GPU部署的“非对等全节点架构“方案分析（中）

队列很多时，为什么RocketMQ比Kafka性能好？

【通俗易懂】详解AI大模型微调中的常见超参数的作用

工控机 vs 服务器：核心区别与应用场景深度解析

K8S云原生监控方案Prometheus+grafana

基于MATLAB实现的具有螺旋相位板的4F系统用于图像边缘增强的仿真

[科普] 从单核到千核：Linux SMP 的“演化史”与工程细节

学习 Android (十六) 学习 OpenCV (一)

【React 插件】@uiw/react-md-editor 使用教程：从基础使用到自定义扩展

人工智能大数据模型驱动企业创新

AttributeError: ‘WSGIRequest‘ object has no attribute ‘data‘

LibTorch C++ 部署深度学习模型：GPU 调用配置详解

关于C语言连续强制类型转换，有符号数据位移，以及温度传感器int16有符号数据重组处理问题

数论手机辅助：打造便捷高效的移动应用交互体验

房产开发证书识别-建筑工程施工许可证识别-竣工验收备案表识别-土地规划许可证识别-商品房预售许可证识别-建筑工程施工许可证识别等房产企业证书识别场景剖析

【数据分享】西藏土壤类型数据库

生成模型实战 | GPT-2（Generative Pretrained Transformer 2）详解与实现

【Linux内核系列】：信号（上）

力扣热题100------136.只出现一次的数字

JAVA高级编程第五章