当前位置: 首页 > news >正文

Post-train 入门(1):SFT / DPO / Online RL 概念理解和分类

Post-train 的分类

  1. SFT
  2. DPO
  3. online RL

以下是后训练(Post-train)中三种主流方法的对比表格,涵盖核心定义、优化目标、数据需求、优缺点及典型应用场景:

分类核心定义优化目标数据需求优点缺点典型应用场景
SFT(监督微调)在预训练模型基础上,使用人工标注的高质量指令-响应对数据进行微调,让模型学习特定任务的输出格式和知识。最小化模型输出与标注数据的交叉熵损失,使模型生成符合人类预期的“标准答案”。依赖高质量的人工标注数据(如指令-响应对),数据规模通常较小(数万至数十万样本)。1. 训练简单稳定,易实现;
2. 能快速对齐基础任务格式;
3. 对计算资源要求较低。
1. 难以捕捉复杂的人类偏好(如安全性、相关性);
2. 泛化能力有限,对未见过的指令可能生成错误结果。
基础对话系统、特定任务指令对齐(如翻译、摘要)、模型快速适配新领域。
DPO(直接偏好优化)跳过显式奖励模型训练,直接通过人类偏好数据(如“更好/更差”的样本对)优化策略,将偏好建模嵌入模型损失函数。最大化模型生成“偏好样本”的概率,同时通过KL约束保持与参考模型(如SFT模型)的分布接近。需要人类标注的偏好对数据(如(x,y好,y差)(x, y_{\text{好}}, y_{\text{差}})(x,y,y)),数据规模中等。1. 省去奖励模型训练,简化流程;
2. 训练稳定性优于传统RLHF;
3. 对域内任务拟合效果好。
1. 依赖高质量偏好标注,标注成本高;
2. 域外泛化能力较弱;
3. 难以处理复杂奖励信号。
对齐人类偏好的对话模型(如ChatGPT后期优化)、内容生成质量提升(如文本、图像)。
Online RL(在线强化学习)模型在与环境交互中实时生成样本,基于实时反馈(奖励)动态更新策略,无需依赖预收集的静态数据集。最大化累积奖励,通过探索不同生成路径找到最优策略,同时平衡“探索”与“利用”。无需预收集数据,依赖实时奖励信号(可来自benchmark、人类反馈或其他评估器)。1. 能适应动态环境和复杂奖励;
2. 域外泛化能力强;
3. 可持续优化策略。
1. 训练复杂,需设计高效探索机制;
2. 计算成本高(实时生成与反馈);
3. 可能存在奖励黑客风险。
动态任务优化(如文本到图像生成的细节控制)、需要推理能力的任务(如数学解题、代码生成)。

关键区别总结:

  • 数据依赖:SFT和DPO依赖静态标注数据,Online RL依赖实时反馈
  • 优化粒度:SFT关注“正确输出”,DPO关注“相对偏好”,Online RL关注“全局最优策略”;
  • 适用阶段:SFT通常作为后训练的基础步骤,DPO和Online RL用于进一步优化偏好对齐和复杂任务能力

Alignment in Diffusion 的分类

  • 这里是 DPO, Online RL for diffusion 的分类,不包括 SFT。
    在这里插入图片描述
    上图来源于 https://github.com/xie-lab-ml/awesome-alignment-of-diffusion-models
http://www.lryc.cn/news/612014.html

相关文章:

  • 未给任务“Fody.WeavingTask”的必需参数“IntermediateDir”赋值。 WpfTreeView
  • 嵌入式开发学习———Linux环境下IO进程线程学习(五)
  • 【PZSDR P201MINI】 P201Mini 软件无线电开发板:紧凑型射频系统的性能标杆
  • Debian系统更新实现
  • 在 Neo4j实现虚拟关系(间接)的可视化
  • (Python)待办事项升级网页版(html)(Python项目)
  • 识别 Base64 编码的 JSON、凭证和私钥
  • IntelliJ IDEA 2025.1.4.1 中文版
  • 防火墙(firewalld)
  • 医疗AI中GPU部署的“非对等全节点架构“方案分析(中)
  • 队列很多时,为什么RocketMQ比Kafka性能好?
  • Linux seLinux
  • 【通俗易懂】详解AI大模型微调中的常见超参数的作用
  • 工控机 vs 服务器:核心区别与应用场景深度解析
  • K8S云原生监控方案Prometheus+grafana
  • 基于MATLAB实现的具有螺旋相位板的4F系统用于图像边缘增强的仿真
  • [科普] 从单核到千核:Linux SMP 的“演化史”与工程细节
  • 学习 Android (十六) 学习 OpenCV (一)
  • 【React 插件】@uiw/react-md-editor 使用教程:从基础使用到自定义扩展
  • 人工智能大数据模型驱动企业创新
  • AttributeError: ‘WSGIRequest‘ object has no attribute ‘data‘
  • LibTorch C++ 部署深度学习模型:GPU 调用配置详解
  • 关于C语言连续强制类型转换,有符号数据位移,以及温度传感器int16有符号数据重组处理问题
  • 数论手机辅助:打造便捷高效的移动应用交互体验
  • 房产开发证书识别-建筑工程施工许可证识别-竣工验收备案表识别-土地规划许可证识别-商品房预售许可证识别-建筑工程施工许可证识别等房产企业证书识别场景剖析
  • 【数据分享】西藏土壤类型数据库
  • 生成模型实战 | GPT-2(Generative Pretrained Transformer 2)详解与实现
  • 【Linux内核系列】:信号(上)
  • 力扣热题100------136.只出现一次的数字
  • JAVA高级编程第五章