当前位置：首页 > news >正文

RFT 强化微调

news 2025/7/27 21:33:14

OpenAI在今天发布的新技术，RFT结合了SFT和RL的优化算法，与传统的监督微调不同，强化微调旨在通过任务训练让模型掌握复杂推理能力，而不仅仅是“记住答案”。

什么是强化微调

强化微调是通过高质量任务数据和参考答案优化大语言模型的推理能力的方法。

• 核心区别：与传统的监督微调（SFT）不同，RFT 并非简单地“教模型记住答案”，而是引导模型在复杂问题中学会推理，从而更准确地解决任务。

• 技术构成：RFT 融合了 SFT 的监督学习基础和强化学习（RL）的奖励机制，通过多轮自我优化训练，使模型能生成更高质量的答案。

例如，在医疗领域，RFT 可通过患者症状推断潜在的遗传基因，而不仅仅是回忆训练数据中的信息。这种能力对于处理复杂推理任务尤为重要。

Sam Altman 认为强化微调 Reinforcement Fine-Tuning是2024最牛的技术进展，能帮助大家搞定专业模型的训练。

RFT如何实现

RFT 的实现包括以下几个关键步骤：

1. 数据准备：训练与验证数据集

• 训练数据集：提供任务样本（如问题与参考答案）用于模型学习。

如图所示训练数据：病例报告（包含基本信息、症状以及没有的症状）、指令和正确答案。

• 验证数据集：内容与训练集不同，用于测试模型的泛化能力，避免模型“记住答案”。

2. 评分器（Grader）机制

在强化过程中，评分器根据模型输出与正确答案的匹配程度进行评分（0~1）。

• 例如，若正确答案出现在模型输出的第 2 位，评分器可能给出 0.7 的分数。

• 不同任务类型可配置特定的评分器，甚至未来将支持自定义评分标准。

3. 强化训练

• 模型通过自定义批量大小、学习率、epoch 数等参数优化训练策略。

• 在训练过程中，模型输出的每条推理路径会通过评分器自动评估并调整，以实现更优表现。

例如，OpenAI 的 o1-mini 模型在强化微调后，其推理准确性显著提升，甚至超越了更大规模的 o1 模型。

可以看出模型在验证集上的得分越来越高。

这个经过强化微调的 o1-mini 的表现在各种维度都比O1要强。

RFT 的优势

强化微调为大语言模型训练带来了以下显著优势：

1. 更强的推理能力

RFT 通过不断优化推理路径，让模型在复杂领域中表现出色，尤其适合解决有明确正确答案的任务。例如，在数学推理问题上，RFT 能够提高模型的准确率。

2. 小模型的高效表现

实验表明，经过 RFT 训练的小规模模型（如 o1-mini），在多个指标上超越未经强化微调的大模型。这使得专业化模型的训练成本大幅降低。

3. 灵活适配多任务场景

RFT 技术适用于医疗、法律、保险、工程等多种专业领域。理论上，只要有合适的数据和评分器，就可以训练出定制化的专业 AI 助手。

目前，OpenAI 正在对 RFT 进行 Alpha 测试，主要面向与专家团队协作处理复杂任务的机构用户。随着技术的成熟，个人用户预计将在 2025 年体验到这一突破性技术。

RFT来源

强化微调（REFT）的研究方向最早由字节跳动提出，并在 2024 年 ACL 顶会上通过论文《REFT: Reasoning with REinforced Fine-Tuning》详细阐述。通过多条推理路径的学习和优化，显著提升了模型在推理任务中的表现。。

论文中提到，REFT 技术分为两个阶段：

• 预热阶段（Warm-up）：使用 SFT 方法为模型提供基础推理能力，让模型能够生成初步的合理响应。

• 强化学习阶段：采用 PPO（Proximal Policy Optimization）算法，通过奖励机制优化模型输出质量。

这项技术的最初目标是提升模型在数学推理任务上的表现，并取得了显著成果。例如，在 GSM8K 数据集上的测试中，经过 REFT 训练的模型准确率较 SFT 提升了近 10 个百分点。

查看全文

http://www.lryc.cn/news/499713.html

SpringBoot教程（三十二） SpringBoot集成Skywalking链路跟踪

分布式搜索引擎Elasticsearch

在Vue.js中生成二维码（将指定的url+参数生成二维码）

统信桌面专业版部署postgresql-14.2+postgis-3.2方法介绍

Ubuntu——extrepo添加部分外部软件源

评估大语言模型(LLM)在分子预测任务能够理解分子几何形状性能

如何查看电脑刷新率

mysql集群MHA方式部署

第十七章使用 MariaDB 数据库管理系统

rabbitmq 安装延时队列插件rabbitmq_delayer_message_exchange（linux centOS 7）

Unity性能优化---动态网格组合（一）

Appium：安装uiautomator2失败

电子信息工程自动化单片机彩灯控制

word poi-tl 表格功能增强，实现表格功能垂直合并

LSTM-CNN-BP-RF-SVM五模型咖喱融合策略混合预测模型

《鸿蒙开发-答案之书》怎么设置Json字段的别名

ftp服务器搭建-安装、配置及验证

鸿蒙应用获取wifi连接的ip地址(官方文档获取的格式转换成192.168.1.xxx格式)

c++数据结构算法复习基础--11--高级排序算法-快速排序-归并排序-堆排序

人工智能学习路线详细规划

深度学习之视觉处理

遇到问题：hive中的数据库和sparksql 操作的数据库不是同一个。

Spring Boot与Spring Security集成：前后分离认证流程的优化实践

设计模式——Chain(责任链)设计模式

HarmonyOS(63) ArkUI 自定义占位组件NodeContainer

Python深度强化学习对冲策略：衍生品投资组合套期保值Black-Scholes、Heston模型分析...

什么是强化微调

RFT如何实现

RFT 的优势

RFT来源

相关文章：