当前位置：首页 > news >正文

GUI Grounding: ScreenSpot

news 2025/8/15 5:34:23

论文链接：arxiv.org/pdf/2401.10935

前言

大多数现有的GUI Agent 是通过提取结构化的数据（例如HTML）与环境进行交互，但是这种方式数据通常非常冗长，且在某些情况无法直接获取（如桌面环境）;结构化文本种类繁多，难以统一管理。

因此有了新的研究方向：仅依赖屏幕截图实现任务的自动化。

ScreenSpot

提出了ScreenSpot GUI grounding benchmark,涵盖IOS、Android、macOS、网页的600多个截图和1200条指令。

邀请了四位有经验的标注者（均为计算机科学领域的博士或硕士研究生），他们熟练使用手机和电脑，且熟悉GUI操作。

首先，为标注者分配不同的GUI类型，如iOS、Windows和网页，然后要求他们在日常使用过程中截取屏幕截图（例如使用各种应用程序），并使用标注工具对频繁交互的点击区域进行边界框标注。

最后，这些标注者需要为标注的屏幕元素编写对应的英文文本指令。所有标注的界面和操作元素均为英文，并经过后处理以移除个人信息。

图10提供了ScreenSpot的一些示例，其中包含移动端、桌面端和网页平台中的常见GUI场景。

http://www.lryc.cn/news/620362.html

相关文章：

在云蝠智能VoiceAgent中融入通话背景音：解析如何打造拟人化语音交互体验

NY219NY220美光固态闪存NY224NY229

双机热备实验

数据库访问模式详解

week1-[分支嵌套]公因数

身份全景图

【20-模型诊断调优】

云原生俱乐部-k8s知识点归纳（2）

云原生俱乐部-杂谈1

B站韩顺平笔记（Day 18）

从合规到卓越：全星QMS如何成为制造企业的质量战略引擎

十一，算法-快速排序

Python/Node.js 调用taobao API：构建实时商品详情数据采集服务

Neural Bandit Based Optimal LLM Selection for a Pipeline of Tasks

监控插件SkyWalking（二）集成方法

Node.js/Python 实战：封装淘宝商品详情 API 客户端库（SDK）

vLLM（Vectorized Large Language Model Serving）的深度解析

npm介绍，指令合集，换源指令

问题总结三

VSC遇到的问题：无法加载文件 C:\Program Files\nodejs\npm.ps1，因为在此系统上禁止运行脚本。

P12348 [蓝桥杯 2025 省 A 第二场] 交互

Java零基础笔记16（Java编程核心：存储读写数据方案—File文件操作、IO流、IO框架）

17. 如何判断一个对象是不是数组

【LeetCode】4. 寻找两个正序数组的中位数

hadoop 前端yarn 8088端口查看任务执行情况

【深入浅出STM32（1）】 GPIO 深度解析：引脚特性、工作模式、速度选型及上下拉电阻详解

数据结构：队列（Queue）与循环队列（Circular Queue）

linux_网络层-ip协议

力扣 hot100 Day72

深入理解 Cookie 与 Session —— Web 状态保持详解与实战