当前位置: 首页 > news >正文

Alibaba-NLP/WebAgent 项目总结

项目概述

名称:WebAgent
机构:阿里巴巴集团通义实验室(Tongyi Lab)
核心目标:构建面向信息检索的网页智能体(Web Agent),实现复杂任务中的自主搜索、推理与决策。
核心组件

  1. WebWalker:网页遍历基准测试与多智能体框架
  2. WebDancer:面向自主信息检索的原生智能体模型
  3. WebSailor:支持超长复杂推理的网页智能体

关键技术与创新

1. WebSailor(2025年预印本)
  • 功能亮点
    • 解决高不确定性、高难度的信息检索任务(如模糊查询、多源信息整合)。
    • 提出 SailorFog-QA 数据集:通过图采样和信息模糊化生成的高难度QA数据集。
  • 训练方法
    • 两阶段训练流程
      • RFT冷启动:基于专家轨迹重构简洁推理链。
      • DUPO算法:高效的智能体强化学习算法(Duplicating Sampling Policy Optimization)。
  • 性能
    • BrowseComp-en(12.0%)、BrowseComp-zh(30.1%)、GAIA(55.4%)等基准上超越开源方案,逼近闭源系统。
2. WebDancer(2025年预印本)
  • 功能亮点
    • 基于 ReAct框架 实现自主搜索与决策(类似Deep Research模型)。
    • 支持长视界任务(多步骤网页遍历、复杂推理)。
  • 训练方法
    • 四阶段训练范式
      1. 网页数据构建
      2. 轨迹采样
      3. 监督微调(SFT)
      4. DAPO算法:轨迹级监督+强化学习优化泛化能力。
  • 性能
    • GAIA(Pass@3: 64.1%)、WebWalkerQA(62.0%)领先。
3. WebWalker(ACL 2025)
  • 功能亮点
    • 首个专注于 网页遍历(Web Traversal) 的基准测试框架。
    • 提供多智能体协作框架支持复杂信息检索。
  • 创新
    • 提出网页环境模拟与轨迹评估标准。

快速使用指南

  1. 环境配置
    conda create -n webdancer python=3.12
    pip install -r requirements.txt
    
  2. 模型部署
    • 下载模型后运行脚本:
      bash scripts/deploy_model.sh WebDancer_PATH
      
  3. 运行Demo
    • 需申请以下API密钥:
      • GOOGLE_SEARCH_KEY(Serper提供)
      • JINA_API_KEY(Jina提供)
    • 启动Gradio交互界面:
      bash scripts/run_demo.sh
      

成果展示

  • WebSailor Demo
    • 解决高模糊性任务(如BrowseComp-en/zh、日常复杂查询)。
  • WebDancer Demo
    • 执行多步骤任务(如WebWalkerQA网页遍历、GAIA深度问答)。

许可与引用

  • 许可证:LICENSE
  • 引用格式
    @misc{li2025websailor,title={WebSailor: Navigating Super-human Reasoning for Web Agent},author={Kuan Li et al.},year={2025},eprint={2507.02592},primaryClass={cs.CL}
    }
    @misc{wu2025webdancer,title={WebDancer: Towards Autonomous Information Seeking Agency},author={Jialong Wu et al.},year={2025},eprint={2505.22648},primaryClass={cs.CL}
    }
    @misc{wu2025webwalker,title={WebWalker: Benchmarking LLMs in Web Traversal},author={Jialong Wu et al.},year={2025},eprint={2501.07572},primaryClass={cs.CL}
    }
    

其他信息

  • 人才招聘
    • 开放研究实习生岗位(杭州、北京、上海),研究方向包括:
      • 网页智能体(Web Agent)
      • 强化学习(Agent RL/MARL)
      • 检索增强生成(Agentic RAG)
  • 更新动态
    • 2025.07.03:发布WebSailor模型与Demo,登顶HuggingFace热门论文。
    • 2025.05:开源WebDancer模型与交互演示。
    • 2025.01:WebWalker被ACL 2025收录。

核心价值

  • 技术突破
    • 首次在复杂网页任务中实现接近人类的推理能力(WebSailor)。
    • 构建端到端训练流水线(SFT+RL),推动智能体泛化性能。
  • 开源贡献
    • 提供全套代码、模型、数据集及演示,推动社区发展。

此项目标志着大模型在网页信息检索领域的重大进展,尤其在高难度任务上实现了开源模型的性能飞跃。

http://www.lryc.cn/news/591107.html

相关文章:

  • 如何在PyCharm中删除虚拟环境
  • [MRCTF2020]PYWebsite
  • web APIs(更新中)
  • 中兴B860AV5.1-M2_S905L3SB最新完美版线刷包 解决指示灯异常问题
  • 【测试100问】为什么要做接口测试?
  • 大带宽服务器对于高流量网站的作用
  • 2025年6月GESP(C++一级):值日
  • 淘宝获取商品规格接口(item-sku)操作详解
  • 【Modelsim】原理图怎么看?
  • 【后端】.NET Core API框架搭建(8) --配置使用RabbitMQ
  • `@Configuration` 是 Spring 框架中的一个注解
  • Jmeter使用 -1
  • React Native打开相册选择图片或拍照 -- react-native-image-picker
  • php主流框架FastAdmin框架详解以及如何查看版本号和初始安装fastadmin框架-优雅草卓伊凡|大东家
  • Flutter在Android studio运行出现Error: Entrypoint is not a Dart file
  • HikariCP数据库连接池高性能优化实战指南
  • 23种设计模式--#2单例模式
  • git的cherry-pick
  • Py-Clipboard :iOS与Windows互相共享剪贴板(半自动)
  • AI+医疗!VR和MR解剖学和针灸平台,智能时代如何重塑健康未来
  • vue3实现web端和小程序端个人签名
  • [RAG] LLM 交互层 | 适配器模式 | 文档解析器(`docling`库, CNN, OCR, OpenCV)
  • docker安装与简单项目上手
  • 如何实现微信小程序引导组件【添加到我的小程序】+ 附源码
  • wx小程序原生开发使用高德地图api
  • 大语言模型任务分解与汇总:从认知瓶颈到系统化解决方案
  • 分布式分片策略中,分片数量的评估与选择
  • SAP-ABAP:SAP的‘cl_http_utility=>escape_url‘对URL进行安全编码方法详解
  • 2025毫米波雷达技术白皮书:智能汽车与物联网的感知核心
  • 【web安全】DVWA存储型XSS分析与利用