当前位置: 首页 > news >正文

GUI Grounding: ScreenSpot

论文链接:arxiv.org/pdf/2401.10935

前言

大多数现有的GUI Agent 是通过提取结构化的数据(例如HTML)与环境进行交互,但是这种方式数据通常非常冗长,且在某些情况无法直接获取(如桌面环境);结构化文本种类繁多,难以统一管理

因此有了新的研究方向:仅依赖屏幕截图实现任务的自动化。


ScreenSpot

提出了ScreenSpot GUI grounding benchmark,涵盖IOS、Android、macOS、网页的600多个截图和1200条指令。

邀请了四位有经验的标注者(均为计算机科学领域的博士或硕士研究生),他们熟练使用手机和电脑,且熟悉GUI操作。

首先,为标注者分配不同的GUI类型,如iOSWindows网页,然后要求他们在日常使用过程中截取屏幕截图(例如使用各种应用程序),并使用标注工具对频繁交互的点击区域进行边界框标注

最后,这些标注者需要为标注的屏幕元素编写对应的英文文本指令。所有标注的界面和操作元素均为英文,并经过后处理以移除个人信息。

图10提供了ScreenSpot的一些示例,其中包含移动端、桌面端和网页平台中的常见GUI场景。

http://www.lryc.cn/news/620362.html

相关文章:

  • 在云蝠智能VoiceAgent中融入通话背景音:解析如何打造拟人化语音交互体验
  • NY219NY220美光固态闪存NY224NY229
  • 双机热备实验
  • 数据库访问模式详解
  • week1-[分支嵌套]公因数
  • 身份全景图
  • 【20-模型诊断调优】
  • 云原生俱乐部-k8s知识点归纳(2)
  • 云原生俱乐部-杂谈1
  • B站 韩顺平 笔记 (Day 18)
  • 从合规到卓越:全星QMS如何成为制造企业的质量战略引擎
  • 十一,算法-快速排序
  • Python/Node.js 调用taobao API:构建实时商品详情数据采集服务
  • Neural Bandit Based Optimal LLM Selection for a Pipeline of Tasks
  • 监控插件SkyWalking(二)集成方法
  • Node.js/Python 实战:封装淘宝商品详情 API 客户端库(SDK)
  • vLLM(Vectorized Large Language Model Serving) 的深度解析
  • npm介绍,指令合集,换源指令
  • 问题总结三
  • VSC遇到的问题:无法加载文件 C:\Program Files\nodejs\npm.ps1,因为在此系统上禁止运行脚本。
  • P12348 [蓝桥杯 2025 省 A 第二场] 交互
  • Java零基础笔记16(Java编程核心:存储读写数据方案—File文件操作、IO流、IO框架)
  • 17. 如何判断一个对象是不是数组
  • 【LeetCode】4. 寻找两个正序数组的中位数
  • hadoop 前端yarn 8088端口查看任务执行情况
  • 【深入浅出STM32(1)】 GPIO 深度解析:引脚特性、工作模式、速度选型及上下拉电阻详解
  • 数据结构:队列(Queue)与循环队列(Circular Queue)
  • linux_网络层-ip协议
  • 力扣 hot100 Day72
  • 深入理解 Cookie 与 Session —— Web 状态保持详解与实战