当前位置：首页 > news >正文

【AI论文】SPIRAL：零和博弈中的自对弈通过多智能体多轮强化学习激励推理能力

news 2025/7/3 9:21:43

摘要：强化学习领域的最新进展表明，语言模型可通过在具备可验证奖励的任务上进行训练，发展出复杂的推理能力。然而，这些方法依赖于人工整理的问题-答案对以及特定领域的奖励机制设计。本研究提出SPIRAL框架——一种自对弈（self-play）训练范式，模型通过与持续进化的自身版本进行多轮零和博弈来学习，无需人工监督。在自对弈过程中，SPIRAL自动生成一个无限递进的挑战性问题集，因为模型必须不断适应更强的对手。为支持大规模自对弈训练，我们为大语言模型（LLMs）实现了一个全在线、多轮次、多智能体强化学习系统，并提出角色条件优势估计（Role-Conditioned Advantage Estimation, RAE）方法以稳定多智能体训练。实验表明，基于零和博弈的自对弈训练能广泛迁移推理能力：仅在库恩扑克（Kuhn Poker）上训练Qwen3-4B-Base模型，即可在数学推理任务上提升8.6%，在通用推理任务上提升8.4%，其表现优于在25,000条专家博弈轨迹上进行的监督微调（SFT）。分析发现，这种迁移能力通过三种认知模式实现：系统性分解、期望值计算和案例分析。多游戏联合训练（井字棋、库恩扑克、简单谈判）可进一步提升性能，因为不同游戏能培养差异化的推理优势。将SPIRAL应用于强推理模型（DeepSeek-R1-Distill-Qwen-7B）仍能带来平均2.0%的性能提升。这些结果证明，零和博弈天然具备培养可迁移推理能力的潜力，为自主推理系统的发展指明了新方向。Huggingface链接：Paper page，论文链接：2506.24119

研究背景和目的

研究背景：
近年来，强化学习（Reinforcement Learning, RL）在语言模型（Language Models, LMs）中的应用取得了显著进展，特别是在通过训练可验证奖励的任务来提升模型的复杂推理能力方面。然而，这些方法高度依赖于人工整理的问题-答案对和特定领域的奖励机制设计，这限制了其在大规模和多样化任务中的应用潜力。具体而言，现有方法面临以下挑战：

数据依赖性：传统强化学习方法需要大量人工标注的数据集，这些数据集的创建成本高昂且耗时。例如，为了训练模型在数学推理任务上的表现，需要收集并标注大量数学问题及其解答。
奖励工程：设计有效的奖励函数是强化学习中的关键环节，但这一过程往往需要领域专家的参与，且不同任务需要定制化的奖励机制，这增加了模型训练的复杂性和成本。
可扩展性瓶颈：随着任务复杂度的增加，依赖人工监督的方法难以持续扩展，限制了模型推理能力的进一步提升。

研究目的：
为了解决上述问题，本研究旨在探索一种无需人工监督的自主推理发展方法。具体而言，研究提出SPIRAL框架，通过多智能体多轮强化学习在零和博弈中实现模型的自对弈训练，使模型能够在与持续进化的自身版本对抗中不断提升推理能力。研究的主要目的包括：

消除人工监督：通过自对弈机制，模型能够自动生成训练数据和奖励信号，减少对人工标注和奖励工程的依赖。
提升推理能力：通过零和博弈中的竞争压力，激发模型发展出广泛可迁移的推理能力，这些能力不仅限于训练任务，还能应用于其他未见过的问题领域。
探索多游戏训练的优势：研究不同游戏对模型推理能力的差异化影响，以及多游戏联合训练是否能产生协同效应，进一步提升模型性能。

研究方法

1. SPIRAL框架设计：
SPIRAL框架通过以下关键组件实现自对弈训练：

多智能体系统：模型同时扮演两个角色（Player 0和Player 1），在零和博弈中交替进行决策。这种设计使得模型能够在与自身对抗的过程中不断提升策略复杂度。
角色条件优势估计（RAE）：为了稳定多智能体训练过程，研究提出了RAE方法，通过为每个角色维护独立的基线估计，减少训练过程中的方差，防止“思维崩溃”现象（即模型停止生成有意义的推理过程）。)
在线分布式训练系统：基于Oat框架，研究开发了一个高效的多智能体强化学习系统，支持大规模并行训练，满足自对弈对计算资源的高需求。

2. 游戏环境选择：
研究选择了三种具有不同认知要求的游戏作为训练环境：

井字棋（TicTacToe）：测试空间推理能力，要求模型识别模式、规划多步走法。
库恩扑克（Kuhn Poker）：引入概率推理，要求模型计算期望值、进行对手建模。
简单谈判（Simple Negotiation）：培养战略优化能力，要求模型通过多轮交流实现资源最优分配。

3. 实验设置：

基线模型：使用Qwen3-4B-Base作为基础模型，评估SPIRAL框架的有效性。
训练配置：训练周期为400步，每步采样128个游戏轨迹，使用Adam优化器，学习率恒定为1×10^-6。
评估指标：通过胜率、游戏长度和无效动作频率监控训练动态；在未见过的游戏和标准推理基准（如MATH500、AIME、GPQA等）上评估模型的迁移能力。

研究结果

1. 推理能力提升：

在仅使用库恩扑克训练的情况下，SPIRAL框架使Qwen3-4B-Base模型在数学推理任务上的表现提升了8.6%，在通用推理任务上提升了8.4%，显著优于在25,000条专家博弈轨迹上进行的监督微调（SFT）。
多游戏联合训练（井字棋、库恩扑克、简单谈判）进一步提升了模型性能，平均提升幅度达9.2%，表明不同游戏能培养差异化的推理优势，且多游戏训练具有协同效应。

2. 认知模式分析：