当前位置: 首页 > news >正文

WebAgent-基于大型语言模型的代理程序

大型语言模型(LLM)可以解决多种自然语言任务,例如算术、常识、逻辑推理、问答、文本生成、交互式决策任务。最近,LLM在自主网络导航方面也取得了巨大成功,代理程序助HTML理解和多步推理的能力,通过控制计算机或浏览互联网进行一系列计算机操作,以满足给定的自然语言指令。


然而,现实世界的网站上的网络导航仍然存在以下问题:

(1)缺乏预定义的操作空间。

(2)HTML观察比模拟器更长。

(3)LLM缺乏HTML领域知识。

考虑到现实世界网站的开放性和指令的复杂性,提前定义适当的操作空间是具有挑战性的。此外,尽管有几项研究认为通过指令微调或根据人类反馈进行强化学习可以改善对HTML的理解和网络导航的准确性,但最近的LLM并不总是具有处理HTML文档的最优设计。大多数LLM的上下文长度与现实网站上HTML的平均标记相比更短,并且没有采用特定的HTML领域知识。


cbeb3fd9501d63d1a68a3b4e99be0e3f.jpeg


针对上述问题,研究人员引入了WebAgent,这是一个由LLM驱动的代理程序,可以通过组合规范化的网络操作在现实网站上根据用户指令完成导航任务。WebAgent通过将指令分解为规范化的子指令来进行规划,将长HTML文档转化为与任务相关的片段,并通过生成的Python程序对网站进行操作。研究人员将两个LLM组合成WebAgent:Flan-U-PaLM用于基于代码的生成,以及新引入的HTML-T5(一种新型预训练LLM),用于规划和摘要本地长HTML文档。

47c3939f0a030bb83d0479c54458e2b9.jpeg

通过实验证明,该方法可以提高在现实网站上的成功率50%以上,并且HTML-T5是目前解决基于HTML任务的最佳模型;在MiniWoB网络导航基准测试中,其成功率比之前最先进的方法高出14.9%,并且在离线任务规划评估上也具有更好的准确性。

61bbcbac84abacb76ac6b0af5b90f013.jpeg

http://www.lryc.cn/news/107502.html

相关文章:

  • 智慧~经典开源项目数字孪生智慧商场——开源工程及源码
  • LeetCode--剑指Offer75(1)
  • C++ 关于大端模式和小端模式的简析
  • 嵌入式:C高级 Day2
  • iPhone 7透明屏的显示效果怎么样?
  • 【C++】—— 多态常见的笔试和面试问题
  • 探寻AI大模型平台之巅——文心千帆
  • 【springboot】RestTemplate配置HttpClient连接池
  • MySQL内置函数使用说明
  • java后端富文本转word,再传递到浏览器下载。
  • 【动态规划算法】-回文串问题题型(34-40题)
  • STM32基础回顾
  • 如何解决电脑无声问题:排除故障的几种常见方法
  • Apache RocketMQ 命令注入
  • 二、搜索与图论6:Dijkstra 模板题+算法模板(Dijkstra求最短路 I, Dijkstra求最短路 II,1003 Emergency)
  • ROS2学习(四)进程,线程与节点的关系
  • 【物联网】DMA传输原理与实现详解(超详细)
  • Java类集框架(二)
  • 爬虫008_流程控制语句_if_if else_elif_for---python工作笔记026
  • 【随笔】五周年创作纪念日
  • 7_分类算法—逻辑回归
  • 【计算机网络】应用层协议 -- DNS协议
  • ES6 - 数组新增的一些常用方法
  • 【BEV感知】3-BEV开源数据集
  • Kafka-Broker工作流程
  • 第八篇-Tesla P40+ChatGLM2+LoRA
  • 调用feign返回错误的数据
  • 【Spring】(二)从零开始的 Spring 项目搭建与使用
  • redis五种数据类型介绍
  • 【JavaEE】Spring Boot - 项目的创建和使用