当前位置：首页 > news >正文

Post-Training on PAI (1)：一文览尽开源强化学习框架在PAI平台的应用

news 2025/6/28 9:14:10

引言

Post-Training（即模型后训练）作为大模型落地的重要一环，能显著优化模型性能，适配特定领域需求。相比于 Pre-Training（即模型预训练），Post-Training 阶段对计算资源和数据资源需求更小，更易迭代，因此备受推崇。

近期，我们将体系化地分享基于阿里云人工智能平台 PAI 平台在强化学习、模型蒸馏、数据预处理、SFT等方向的技术实践，旨在清晰地展现 PAI 在 Post-Training 各个环节的产品能力和使用方法，欢迎大家随时交流探讨。

DeepSeek-R1 通过 "Aha Moment" 场景的成功实践，充分验证了强化学习技术在大模型对齐领域的核心价值。这一突破推动开源社区迎来强化学习框架的创新热潮，各类工具如雨后春笋般涌现。

阿里云人工智能平台 PAI 深度拥抱开源生态，训练平台 PAI-DLC 全面整合主流强化学习框架与工具链，同时依托平台独有的大规模分布式训练能力，极致性能优化及企业级稳定性保障，为企业及开发者构建起高效的云上技术桥梁。通过 PAI 平台，用户可轻松实现强化学习技术与模型能力的深度融合，在对话交互、决策优化等多场景中释放技术潜力，加速 AI 应用的产业落地进程。

下面将分别介绍业内主流的强化学习开源框架，和在PAI-DLC 如何方便快捷的使用。

Cosmos-RL：

Cosmos-RL 是 NVIDIA 提供一款全新的纯异步高鲁棒性的LLM强化学习训练框架[1] (https://github.com/nvidia-cosmos/cosmos-rl)，在训练效率和容错能力上相较目前主流的框架都有明显提升，其框架特点：

训练效率方面，主流的 colocated 结构的框架（如VeRL，OpenRLHF等）受限于在相同资源上进行policy和rollout切换，导致资源利用率低，GPU等待时间长。Cosmos-RL将policy训练，rollout推理使用异构部署的方式组网，并通过controller调度分发请求来实现异步并行，在保障训练精度的前提下实现了全链路异步训练，训练速度是传统框架的2-3倍。
训练容错方面，Cosmos-RL全新设计了训练集群的拓扑网络管理逻辑，policy与rollout实例在训练过程中任一节点发生异常可以迅速重新组网并继续执行当前训练step，不需要重启恢复等操作，提供了高鲁棒性。多controller的备份进一步提高系统稳定性。高容错设计同时也带来了动态扩缩容的特性，可以自由的增加或者减少训练节点。

Cosmos-RL on PAI:

PAI-DLC 自研Custom 类型任务，用户基于Custom类型自定义框架的角色类型（controller、policy 和 rollout）和资源配置，实现一键提交cosmos-RL框架任务。

经过实测，Cosmos-RL， GPU数量越多时Throughput（samples per second）优势越明显，相⽐VeRL有2-3x 的效率提升。

传统⽂本任务（GSM8K数据集），以Qwen2.5-32B-Instruct 为基座模型，训练1个Epoch，rollout 的单个样本generation number设置为16，batch_size为192，并严格对齐其他参数，采⽤相同的rollout backend。分别使⽤16、32、64和128卡进⾏训练，通过samples per second计算量框架的吞吐（Throughput）。

Ray：

Ray是一个开源的分布式计算框架（https://github.com/ray-project），集成了多个AI库，拥有丰富的生态系统，包括Ray Tune（超参数调优）、Ray RLlib（强化学习）、Ray Serve（模型部署）、RaySGD 的分布式运行环境，提供了全面的AI解决方案，使得AI并行训练更容易和高效。其中，OpenAI声明Ray 为ChatGPT 大模型训练的底层平台，也进一步表明其在AI训练场景的通用性。

Ray on PAI：

针对Ray，PAI-DLC 期望为用户提供一个简单易用的、Ray Native的使用体验。首先 PAI-DLC 在任务类型（框架）明确推出Ray类型，用户可以将已有Ray 训练脚本通过DLC直接提交，开发人员真正实现上手0成本。其次，PAI-DLC 作为云上AI PaaS平台，为用户提供Serverless的产品体验，进一步降低Ray使用门槛，PAI-DLC 上使用Ray，用户无需关注Ray集群部署和运维，也无需关注底层Kubernetes复杂配置，一键提交Ray任务。

同时在PAI-DLC 平台提交任务，支持单任务万卡级规模的调度和分布式计算能力。对Ray系统架构提供针对性的容错引擎优化，包括（1）Ray Head Node故障自自愈，实现任务续跑（2）Ray集群初始化智能诊断，解决Ray Worker 容易OOM等框架级错误（3）基于Ray Head Node 海量报错日志，智能解析快速精准锁定真实故障节点，实现分钟级自愈恢复能力。

在阿里大模型团队，每周通过PAI-DLC提交数百个千卡级别任务（强化学习千卡规模 * 数天），故障识别率95%+，任务稳定运行超过一周。

VeRL

VeRL是由字节跳动团队开源的强化学习与大模型对齐训练框架（https://github.com/volcengine/verl），其采用混合编程模型，融合单控制器灵活性与多控制器高效性，解耦控制流和计算流，通过封装单模型分布式计算、统一数据切分、支持异步控制流等技术，为强化学习提供完整解决方案。

VeRL on PAI：

VeRL基于Ray分布式框架构建执行流程，借助其资源调度与任务管理能力，实现多节点、多GPU分布式计算，无缝集成PyTorch生态实现模型训练能力。在PAI-DLC上，用户可以通过提交Ray框架任务或者提交PyTorch框架任务，一键提交大规模的强化学习任务。

关于 PAI-DLC：阿里云分布式训练平台

PAI-DLC（Deep Learning Containers）阿里云PAI平台提供的云原生的AI分布式训练平台，为开发者和企业提供灵活、稳定、易用和高性能的机器学习训练环境，它支持多种算法框架，能够处理大规模的分布式深度学习任务，在降低成本的同时提升训练效率。平台具备以下特性：

强大的分布式计算能力： PAI-DLC 自研统一调度引擎，网络拓扑感知、算力拓扑感知，提供智能、FIFO、遍历、均衡排队策略，多级 Quota 的共享、抢占调度机制，实现超大规模训练任务运行，实现90%+整体算力利用率。
多种框架，一键拉起简单易用：PAI-DLC 对于用户，无需搭建集群，一键提交训练任务； PAI-DLC 支持 Megatron、Deepspeed、Pytorch、MPI、Slurm 等10+业内主流AI训练框架，意味着一份算力，随时在多种AI场景切换和使用，免部署、免运维、上手0成本。
训练自愈，提供企业级高可用：PAI-DLC 自研AIMaster弹性容错引擎、节点自愈引擎和EasyCKPT大模型CKPT引擎，实现故障节点分钟级自愈，任务分钟级恢复、CKPT秒级保存，保障大模型训练任务持续运行, 有效降低人力和避免算力的浪费。