GUI Grounding: ScreenSpot
论文链接:arxiv.org/pdf/2401.10935
前言
大多数现有的GUI Agent 是通过提取结构化的数据(例如HTML)与环境进行交互,但是这种方式数据通常非常冗长,且在某些情况无法直接获取(如桌面环境);结构化文本种类繁多,难以统一管理。
因此有了新的研究方向:仅依赖屏幕截图实现任务的自动化。
ScreenSpot
提出了ScreenSpot GUI grounding benchmark,涵盖IOS、Android、macOS、网页的600多个截图和1200条指令。
邀请了四位有经验的标注者(均为计算机科学领域的博士或硕士研究生),他们熟练使用手机和电脑,且熟悉GUI操作。
首先,为标注者分配不同的GUI类型,如iOS、Windows和网页,然后要求他们在日常使用过程中截取屏幕截图(例如使用各种应用程序),并使用标注工具对频繁交互的点击区域进行边界框标注。
最后,这些标注者需要为标注的屏幕元素编写对应的英文文本指令。所有标注的界面和操作元素均为英文,并经过后处理以移除个人信息。
图10提供了ScreenSpot的一些示例,其中包含移动端、桌面端和网页平台中的常见GUI场景。