当前位置: 首页 > news >正文

ZeroSearch:阿里开源无需外接搜索引擎的RL框架,显著提升LLM的搜索能力!!

有效的信息搜索对于提升大型语言模型(LLM)的推理和生成能力至关重要。近期的研究探索了使用强化学习(RL)来提高LLMs的搜索能力,通过在现实环境中与实时搜索引擎进行交互。尽管这些方法显示出有希望的结果,但它们面临两个主要挑战:(1)文档质量不可控:搜索引擎返回的文档质量通常是不可预测的,这给训练过程带来了噪声和不稳定性。(2)高昂的API成本:RL训练需要频繁的rollout,可能涉及数十万甚至数百万次的搜索请求,这会产生大量的API费用,严重限制了可扩展性。为了解决这些挑战,我们引入了ZEROSEARCH,这是一个新颖的强化学习框架,它激励LLMs在训练期间使用模拟搜索来使用真实的搜索引擎。我们的方法从轻量级的监督微调开始,将LLM转变为一个检索模块,能够根据查询生成有用和有噪声的文档。在强化学习训练期间,我们采用基于课程的rollout策略,逐渐降低生成文档的质量,通过将模型暴露于越来越具有挑战性的检索场景中,逐步激发模型的推理能力。广泛的实验表明,ZEROSEARCH有效地激励了LLMs的搜索能力,使用3B LLM作为检索模块。值得注意的是,7B检索模块实现了与真实搜索引擎相当的性能,而14B检索模块甚至超越了它。此外,它在各种参数大小的基础模型和指令调整模型中都表现良好,并且与广泛的强化学习算法兼容。

目录

一、背景动机

二、核心贡献

三、实现方法

3.1 RL优化目标

3.2 训练模板

3.3 基于SFT模拟搜索

3.4 课程式rollout策略

3.5 奖励设计

3.6 训练算法

四、实验结论

4.1 性能提示

4.2 模拟搜索引擎的选择

五、总结


一、背景动机

论文题目:ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching

论文地址:https://arxiv.org/pdf/2505.04588

大模型在多种下游任务中表现出色,但其知识是静态的,受限于预训练时接触的数据范围。因此,LLMs在生成内容时容易出现幻觉或过时信息,影响其在实际应用中的可靠性。为了提高LLMs的准确性和实用性,需要让其在推理生成时获取到外部信息。

现有方法如RAG,通过将外部知识整合到生成流程中来提升LLMs的性能。然而,这些方法存在复杂的Prompt工程或引入较大的计算开销。此外,RL被提出作为一种提升LLMs推理和决策能力的有效方法,但将RL与搜索场景结合仍面临着挑战。

  • 搜索引擎返回的文档质量不可控,给训练过程带来噪声和不稳定性
  • RL训练需要频繁的rollout,涉及大量的搜索请求,导致高昂的API费用,严重限制了可扩展性

基于此,文章提出了 ZeroSearch 强化学习框架,其通过引入LLM作为 “模拟搜索引擎”,利用其在预训练过程中积累的丰富知识来生成检索文档,从而避免了真实搜索带来的成本和噪声干扰。

二、核心贡献

1、文章提出了一个无需与真实搜索引擎交互的强化学习框架 ZeroSearch,其通过模拟搜索引擎来激励LLMs的搜索能力。

2、通过轻量级的监督微调SFT,将LLM转变为检索模块,能够根据查询生成相关和噪声文档。

3、在RL训练中采用基于课程的rollout策略,逐步降低生成文档的质量,通过逐渐增加检索场景的挑战性来激发模型的推理能力。

三、实现方法

3.1 RL优化目标

  • ZeroSearch 通过利用LLM模拟搜索引擎来消除对真实搜索引擎的需求。优化目标是最大化策略模型的预期奖励,同时最小化策略模型与参考模型之间的KL散度。

3.2 训练模板

ZeroSearch 采用了一个多轮交互模板,引导策略模型进行迭代推理和信息检索,直到得出最终答案。模板分为三个阶段:

  1. 推理阶段:模型在<think></think>标签内进行内部推理。

  2. 搜索阶段:如果需要额外的证据,模型会在<search></search>标签内发出搜索查询。

  3. 回答阶段:一旦获取了足够的信息,模型会在<answer></answer>标签内提供答案。

3.3 基于SFT模拟搜索

  • 文章基于SFT微调使LLM能够模拟真实搜索引擎的行为
    • 数据收集:通过提示LLM与真实搜索引擎进行多轮交互,直到得出最终答案。将导致正确答案的交互轨迹标记为正样本,将导致错误答案的交互轨迹标记为负样本。
    • 提取查询-文档对:从正样本和负样本轨迹中提取查询-文档对,并进行轻量级SFT,以提高LLM模拟真实搜索引擎的能力。
    • 提示设计:通过调整提示中的几个词,可以控制生成文档的质量,从而在rollout过程中实现动态文档质量控制。

3.4 课程式rollout策略

在RL训练中,ZeroSearch 采用了一个基于课程的rollout策略,逐步降低生成文档的质量,以逐渐增加检索场景的挑战性。其通过一个概率函数 pi​ 控制在第 i 步生成噪声文档的可能性。

3.5 奖励设计

奖励信号是RL过程中的主要监督信号。文章采用了一个基于F1分数的奖励函数,平衡了精确度和召回率,避免了策略模型因奖励欺骗而产生过长的答案。

3.6 训练算法

ZeroSearch 与多种RL算法兼容,包括PPO、GRPO和Reinforce++。为了稳定RL训练过程,文章引入了损失掩码机制,确保梯度只针对模型自身的输出进行计算。

  • PPO:策略模型和价值模型分别使用不同的学习率进行训练。

  • GRPO:策略模型通过重复rollout进行训练,每次采样多个响应。

  • 损失掩码机制:对检索到的文档标记进行损失掩码,避免因外部生成的文档标记引入的噪声影响训练稳定性。

四、实验结论

4.1 性能提示

  • ZeroSearch在所有基线方法中表现最佳,无论是在领域内数据集(如NQ和HotpotQA)还是领域外数据集(如TriviaQA、PopQA、2WikiMultiHopQA、Musique和Bamboogle)上。

  • 与依赖真实搜索引擎的Search-R1相比,ZeroSearch在多个数据集上取得了更好的性能,尤其是在7B和14B检索模块的情况下,ZeroSearch的性能甚至超过了Google Search。

  • ZeroSearch在不同模型家族、参数大小和模型类型(基础模型或指令调整模型)上都表现出良好的泛化能力,且随着模型尺寸的增大,性能进一步提升。

4.2 模拟搜索引擎的选择

文章评估了不同LLM配置(包括3B到14B的提示式和微调式LLM)作为模拟搜索引擎的性能。

  • 微调的7B模拟搜索引擎(SFT-7B)的性能与Google Search相当,而14B变体(SFT-14B)甚至超过了Google Search。
  • 微调的模拟搜索引擎显著优于提示式的LLM,表明微调能够更有效地模拟真实搜索引擎的行为。
  • 随着模拟LLM的尺寸增大,性能持续提升,表明更大的模型能够更准确地区分相关和不相关文档。

五、总结

文章提出的ZeroSearch框架通过模拟搜索引擎和课程式rollout策略,有效地提升了LLMs的搜索能力,无需与真实搜索引擎交互,从而避免了API费用高昂和文档质量不可控的问题。此外,其在多个问答数据集上取得了优异的性能,证明了其在不同模型和RL算法上的广泛适用性。

http://www.lryc.cn/news/572862.html

相关文章:

  • AMHS工程项目中-MCS-STKC之间的office 测试场景的介绍
  • 搭建pikachu靶场
  • 【云创智城】YunCharge充电桩系统源码实现云快充协议深度解析与Java技术实践:打造高效充电桩运营系统
  • java面试题03静态修饰类,属性,方法有什么特点?
  • macOS - 根据序列号查看机型、保障信息
  • JavaWeb RESTful 开发规范入门
  • Spring 中的依赖注入(DI)详解
  • 通过Radius认证服务器实现飞塔/华为防火墙二次认证:原理、实践与安全价值解析
  • 20250620在Ubuntu20.04.6下编译KickPi的K7的Android14系统解决缺少libril.so.toc的问题
  • 【网络安全】ios逆向一般整理
  • 求助帖:学Java开发方向还是网络安全方向前景好
  • GitHub Copilot 配置快捷键
  • WebServer实现:muduo库的主丛Reactor架构
  • 无人机低空经济十大前沿创新应用探索-具体做无人机什么呢?优雅草卓伊凡
  • 日常运维问题汇总-25
  • 倒计时 效果
  • 云祺容灾备份系统公有云备份与恢复实操-AWS
  • 【大数据高并发核心场景实战】 - 数据持久化之冷热分离
  • Android Kotlin 用法对比Java使用小结
  • 云计算与5G:如何利用5G网络优化云平台的性能
  • 搜索二维矩阵II
  • 《Go语言圣经》接口类型、动态类型、动态值、类型断言
  • 在spring boot中使用Logback
  • Llama 4模型卡片及提示词模板
  • #17 修改开源模型以适配新任务
  • 在VTK中捕捉体绘制图像并实时图像处理
  • 饼图:数据可视化的“切蛋糕”艺术
  • MySQL慢SQL优化全攻略:从诊断到调优
  • 阻止事件的触发
  • 如何导出和迁移离线 Conda 环境