ZeroSearch:阿里开源无需外接搜索引擎的RL框架,显著提升LLM的搜索能力!!
有效的信息搜索对于提升大型语言模型(LLM)的推理和生成能力至关重要。近期的研究探索了使用强化学习(RL)来提高LLMs的搜索能力,通过在现实环境中与实时搜索引擎进行交互。尽管这些方法显示出有希望的结果,但它们面临两个主要挑战:(1)文档质量不可控:搜索引擎返回的文档质量通常是不可预测的,这给训练过程带来了噪声和不稳定性。(2)高昂的API成本:RL训练需要频繁的rollout,可能涉及数十万甚至数百万次的搜索请求,这会产生大量的API费用,严重限制了可扩展性。为了解决这些挑战,我们引入了ZEROSEARCH,这是一个新颖的强化学习框架,它激励LLMs在训练期间使用模拟搜索来使用真实的搜索引擎。我们的方法从轻量级的监督微调开始,将LLM转变为一个检索模块,能够根据查询生成有用和有噪声的文档。在强化学习训练期间,我们采用基于课程的rollout策略,逐渐降低生成文档的质量,通过将模型暴露于越来越具有挑战性的检索场景中,逐步激发模型的推理能力。广泛的实验表明,ZEROSEARCH有效地激励了LLMs的搜索能力,使用3B LLM作为检索模块。值得注意的是,7B检索模块实现了与真实搜索引擎相当的性能,而14B检索模块甚至超越了它。此外,它在各种参数大小的基础模型和指令调整模型中都表现良好,并且与广泛的强化学习算法兼容。
目录
一、背景动机
二、核心贡献
三、实现方法
3.1 RL优化目标
3.2 训练模板
3.3 基于SFT模拟搜索
3.4 课程式rollout策略
3.5 奖励设计
3.6 训练算法
四、实验结论
4.1 性能提示
4.2 模拟搜索引擎的选择
五、总结
一、背景动机
论文题目:ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching
论文地址:https://arxiv.org/pdf/2505.04588
大模型在多种下游任务中表现出色,但其知识是静态的,受限于预训练时接触的数据范围。因此,LLMs在生成内容时容易出现幻觉或过时信息,影响其在实际应用中的可靠性。为了提高LLMs的准确性和实用性,需要让其在推理生成时获取到外部信息。
现有方法如RAG,通过将外部知识整合到生成流程中来提升LLMs的性能。然而,这些方法存在复杂的Prompt工程或引入较大的计算开销。此外,RL被提出作为一种提升LLMs推理和决策能力的有效方法,但将RL与搜索场景结合仍面临着挑战。
- 搜索引擎返回的文档质量不可控,给训练过程带来噪声和不稳定性
- RL训练需要频繁的rollout,涉及大量的搜索请求,导致高昂的API费用,严重限制了可扩展性
基于此,文章提出了 ZeroSearch 强化学习框架,其通过引入LLM作为 “模拟搜索引擎”,利用其在预训练过程中积累的丰富知识来生成检索文档,从而避免了真实搜索带来的成本和噪声干扰。
二、核心贡献
1、文章提出了一个无需与真实搜索引擎交互的强化学习框架 ZeroSearch,其通过模拟搜索引擎来激励LLMs的搜索能力。
2、通过轻量级的监督微调SFT,将LLM转变为检索模块,能够根据查询生成相关和噪声文档。
3、在RL训练中采用基于课程的rollout策略,逐步降低生成文档的质量,通过逐渐增加检索场景的挑战性来激发模型的推理能力。
三、实现方法
3.1 RL优化目标
- ZeroSearch 通过利用LLM模拟搜索引擎来消除对真实搜索引擎的需求。优化目标是最大化策略模型的预期奖励,同时最小化策略模型与参考模型之间的KL散度。
3.2 训练模板
ZeroSearch 采用了一个多轮交互模板,引导策略模型进行迭代推理和信息检索,直到得出最终答案。模板分为三个阶段:
-
推理阶段:模型在
<think>
和</think>
标签内进行内部推理。 -
搜索阶段:如果需要额外的证据,模型会在
<search>
和</search>
标签内发出搜索查询。 -
回答阶段:一旦获取了足够的信息,模型会在
<answer>
和</answer>
标签内提供答案。
3.3 基于SFT模拟搜索
- 文章基于SFT微调使LLM能够模拟真实搜索引擎的行为
- 数据收集:通过提示LLM与真实搜索引擎进行多轮交互,直到得出最终答案。将导致正确答案的交互轨迹标记为正样本,将导致错误答案的交互轨迹标记为负样本。
- 提取查询-文档对:从正样本和负样本轨迹中提取查询-文档对,并进行轻量级SFT,以提高LLM模拟真实搜索引擎的能力。
- 提示设计:通过调整提示中的几个词,可以控制生成文档的质量,从而在rollout过程中实现动态文档质量控制。
3.4 课程式rollout策略
在RL训练中,ZeroSearch 采用了一个基于课程的rollout策略,逐步降低生成文档的质量,以逐渐增加检索场景的挑战性。其通过一个概率函数 pi 控制在第 i 步生成噪声文档的可能性。
3.5 奖励设计
奖励信号是RL过程中的主要监督信号。文章采用了一个基于F1分数的奖励函数,平衡了精确度和召回率,避免了策略模型因奖励欺骗而产生过长的答案。
3.6 训练算法
ZeroSearch 与多种RL算法兼容,包括PPO、GRPO和Reinforce++。为了稳定RL训练过程,文章引入了损失掩码机制,确保梯度只针对模型自身的输出进行计算。
-
PPO:策略模型和价值模型分别使用不同的学习率进行训练。
-
GRPO:策略模型通过重复rollout进行训练,每次采样多个响应。
-
损失掩码机制:对检索到的文档标记进行损失掩码,避免因外部生成的文档标记引入的噪声影响训练稳定性。
四、实验结论
4.1 性能提示
-
ZeroSearch在所有基线方法中表现最佳,无论是在领域内数据集(如NQ和HotpotQA)还是领域外数据集(如TriviaQA、PopQA、2WikiMultiHopQA、Musique和Bamboogle)上。
-
与依赖真实搜索引擎的Search-R1相比,ZeroSearch在多个数据集上取得了更好的性能,尤其是在7B和14B检索模块的情况下,ZeroSearch的性能甚至超过了Google Search。
-
ZeroSearch在不同模型家族、参数大小和模型类型(基础模型或指令调整模型)上都表现出良好的泛化能力,且随着模型尺寸的增大,性能进一步提升。
4.2 模拟搜索引擎的选择
文章评估了不同LLM配置(包括3B到14B的提示式和微调式LLM)作为模拟搜索引擎的性能。
- 微调的7B模拟搜索引擎(SFT-7B)的性能与Google Search相当,而14B变体(SFT-14B)甚至超过了Google Search。
- 微调的模拟搜索引擎显著优于提示式的LLM,表明微调能够更有效地模拟真实搜索引擎的行为。
- 随着模拟LLM的尺寸增大,性能持续提升,表明更大的模型能够更准确地区分相关和不相关文档。
五、总结
文章提出的ZeroSearch框架通过模拟搜索引擎和课程式rollout策略,有效地提升了LLMs的搜索能力,无需与真实搜索引擎交互,从而避免了API费用高昂和文档质量不可控的问题。此外,其在多个问答数据集上取得了优异的性能,证明了其在不同模型和RL算法上的广泛适用性。