当前位置：首页 > news >正文

ZeroSearch：阿里开源无需外接搜索引擎的RL框架，显著提升LLM的搜索能力！！

news 2025/9/12 13:51:26

有效的信息搜索对于提升大型语言模型（LLM）的推理和生成能力至关重要。近期的研究探索了使用强化学习（RL）来提高LLMs的搜索能力，通过在现实环境中与实时搜索引擎进行交互。尽管这些方法显示出有希望的结果，但它们面临两个主要挑战：（1）文档质量不可控：搜索引擎返回的文档质量通常是不可预测的，这给训练过程带来了噪声和不稳定性。（2）高昂的API成本：RL训练需要频繁的rollout，可能涉及数十万甚至数百万次的搜索请求，这会产生大量的API费用，严重限制了可扩展性。为了解决这些挑战，我们引入了ZEROSEARCH，这是一个新颖的强化学习框架，它激励LLMs在训练期间使用模拟搜索来使用真实的搜索引擎。我们的方法从轻量级的监督微调开始，将LLM转变为一个检索模块，能够根据查询生成有用和有噪声的文档。在强化学习训练期间，我们采用基于课程的rollout策略，逐渐降低生成文档的质量，通过将模型暴露于越来越具有挑战性的检索场景中，逐步激发模型的推理能力。广泛的实验表明，ZEROSEARCH有效地激励了LLMs的搜索能力，使用3B LLM作为检索模块。值得注意的是，7B检索模块实现了与真实搜索引擎相当的性能，而14B检索模块甚至超越了它。此外，它在各种参数大小的基础模型和指令调整模型中都表现良好，并且与广泛的强化学习算法兼容。

一、背景动机

二、核心贡献

三、实现方法

3.1 RL优化目标

3.2 训练模板

3.3 基于SFT模拟搜索

3.4 课程式rollout策略

3.5 奖励设计

3.6 训练算法

四、实验结论

4.1 性能提示

4.2 模拟搜索引擎的选择

五、总结

一、背景动机

论文题目：ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching

论文地址：https://arxiv.org/pdf/2505.04588

大模型在多种下游任务中表现出色，但其知识是静态的，受限于预训练时接触的数据范围。因此，LLMs在生成内容时容易出现幻觉或过时信息，影响其在实际应用中的可靠性。为了提高LLMs的准确性和实用性，需要让其在推理生成时获取到外部信息。

现有方法如RAG，通过将外部知识整合到生成流程中来提升LLMs的性能。然而，这些方法存在复杂的Prompt工程或引入较大的计算开销。此外，RL被提出作为一种提升LLMs推理和决策能力的有效方法，但将RL与搜索场景结合仍面临着挑战。

搜索引擎返回的文档质量不可控，给训练过程带来噪声和不稳定性
RL训练需要频繁的rollout，涉及大量的搜索请求，导致高昂的API费用，严重限制了可扩展性

基于此，文章提出了 ZeroSearch 强化学习框架，其通过引入LLM作为 “模拟搜索引擎”，利用其在预训练过程中积累的丰富知识来生成检索文档，从而避免了真实搜索带来的成本和噪声干扰。

二、核心贡献

1、文章提出了一个无需与真实搜索引擎交互的强化学习框架 ZeroSearch，其通过模拟搜索引擎来激励LLMs的搜索能力。

2、通过轻量级的监督微调SFT，将LLM转变为检索模块，能够根据查询生成相关和噪声文档。

3、在RL训练中采用基于课程的rollout策略，逐步降低生成文档的质量，通过逐渐增加检索场景的挑战性来激发模型的推理能力。

三、实现方法

3.1 RL优化目标

ZeroSearch 通过利用LLM模拟搜索引擎来消除对真实搜索引擎的需求。优化目标是最大化策略模型的预期奖励，同时最小化策略模型与参考模型之间的KL散度。

3.2 训练模板

ZeroSearch 采用了一个多轮交互模板，引导策略模型进行迭代推理和信息检索，直到得出最终答案。模板分为三个阶段：

推理阶段：模型在<think>和</think>标签内进行内部推理。
搜索阶段：如果需要额外的证据，模型会在<search>和</search>标签内发出搜索查询。
回答阶段：一旦获取了足够的信息，模型会在<answer>和</answer>标签内提供答案。

3.3 基于SFT模拟搜索

文章基于SFT微调使LLM能够模拟真实搜索引擎的行为
- 数据收集：通过提示LLM与真实搜索引擎进行多轮交互，直到得出最终答案。将导致正确答案的交互轨迹标记为正样本，将导致错误答案的交互轨迹标记为负样本。
- 提取查询-文档对：从正样本和负样本轨迹中提取查询-文档对，并进行轻量级SFT，以提高LLM模拟真实搜索引擎的能力。
- 提示设计：通过调整提示中的几个词，可以控制生成文档的质量，从而在rollout过程中实现动态文档质量控制。

3.4 课程式rollout策略

在RL训练中，ZeroSearch 采用了一个基于课程的rollout策略，逐步降低生成文档的质量，以逐渐增加检索场景的挑战性。其通过一个概率函数 pi 控制在第 i 步生成噪声文档的可能性。

3.5 奖励设计

奖励信号是RL过程中的主要监督信号。文章采用了一个基于F1分数的奖励函数，平衡了精确度和召回率，避免了策略模型因奖励欺骗而产生过长的答案。

3.6 训练算法

ZeroSearch 与多种RL算法兼容，包括PPO、GRPO和Reinforce++。为了稳定RL训练过程，文章引入了损失掩码机制，确保梯度只针对模型自身的输出进行计算。

PPO：策略模型和价值模型分别使用不同的学习率进行训练。
GRPO：策略模型通过重复rollout进行训练，每次采样多个响应。
损失掩码机制：对检索到的文档标记进行损失掩码，避免因外部生成的文档标记引入的噪声影响训练稳定性。

四、实验结论

4.1 性能提示

ZeroSearch在所有基线方法中表现最佳，无论是在领域内数据集（如NQ和HotpotQA）还是领域外数据集（如TriviaQA、PopQA、2WikiMultiHopQA、Musique和Bamboogle）上。
与依赖真实搜索引擎的Search-R1相比，ZeroSearch在多个数据集上取得了更好的性能，尤其是在7B和14B检索模块的情况下，ZeroSearch的性能甚至超过了Google Search。
ZeroSearch在不同模型家族、参数大小和模型类型（基础模型或指令调整模型）上都表现出良好的泛化能力，且随着模型尺寸的增大，性能进一步提升。