当前位置: 首页 > news >正文

Identifying User Goals from UI Trajectories论文学习

通过UI轨迹识别用户的需求。

这篇论文同样聚焦于UI agent,只是思路比较特别。他们想要通过训练agent通过用户的行为轨迹反推出他们想要干什么的能力来锻炼agent识别,理解,使用UI的能力。同时这个训练项目本身也有一定的实际意义,可以把用户的意图记录下来哪天用来预测一下用户需要什么的(想打广告?)

同样的一组动作,用户可能会有很多种意图。这里是让模型去预测最可能的一种。

那么项目组是如何判定agent给出的用户意图与数据集里人工给出的意图一致呢?:

首先,论文假设数据集给出的UI轨迹是完全的,用户的目的已经达到了。因此,假如agent给出的用户意图是UI轨迹中还没有完成的事,那就是错的。

论文把用户的意图分为两类:寻找信息和做出改变。做出改变类型的任务意图就是要完成特定需求,,寻找信息类型的任务就是要给出用户需要的关键信息。

接下来是判断agent的描述和答案的匹配标准。首先我们要解释“满足”是什么意思。A满足B代表完成任务A那么任务B也完成了。可以理解为,A是一个描述更加详细的任务。假如agent的任务描述和答案相互满足,这当然是最好的(注意是在UI环境下,例如A任务说"大",B任务说“100”,要是UI认为100就是大,大就是100,它们也是等价的)。假如是一方满足另一方(也就是agent的描述太宽泛或太详细)那就叫部分满足。

事实上,该项目的人工审核的时候就是按照两个标准判断的:1是agent给出的用户意图是否满足标准答案,2是agent给出的是否和标准答案互相匹配。(可以看到项目组是比较倾向于让agent往详细了描述的,毕竟特别详细有一点奖励,太宽泛就完全没有了)

同时,该项目也有机器审核。这里使用了GPT4o,评价标准和人工一样。

最后在GPT4,Gemini 1.5pro,和人身上做了实验,表现是由坏到好。大家的错误主要集中在输出结果太宽泛,要么就是有误解(比如“选择评价最高的电影”理解为“选择《黑暗骑士》”)。而且fewshot表现和zeroshot差不多,可能是fewshot之后上下文信息太多了,模型把握不住。

感觉这种错误可以理解啊,这些行为本来就是摸棱两可的,不一定说一定要一模一样,言之有理即可吧。要么就在数据集里加上一大堆可能的意图,只要模型答对其中一个就行。还可以为不同的合理程度做评分,感觉比单一标准更好,这主要是数据集的锅。

当前的工作还有一些限制:语言局限,实际情况中用户可能会有多个意图或者原本的意图会被打断,用户的意图也可能因为一些影响而发生变化,或者干脆不太会用,正在试探。而且现有的数据集也没有做multitask的。

http://www.lryc.cn/news/431103.html

相关文章:

  • [STM32]从零开始的STM32标准库环境搭建(小白向)
  • 解决 Android 上的 .NET MAUI/Xamarin.AndroidX 应用调用 ASP.NET Core API 端点时 SSL 连接被拒绝的问题
  • 助贷CRM系统:为金融中介行业打造全新营销管理模式
  • HBase 部署及shell操作
  • 使用Fign进行客户端远程调用和SpringFormEncoder的使用
  • golang 数据库使用注意事项
  • Leetcode面试经典150题-221.最大正方形
  • 51单片机-DS1302,操作简述
  • Vue3+Vite+Echarts 出现Missing semicolon错误
  • iOS——frame和bounds的区别
  • Trm理论 3(注意力机制)
  • Vue2和Vue3项目创建的区别和 element ui 和element plus的导入方式
  • 基于STM32的猫狗宠物喂养系统设计(微信小程序)(215)
  • spark读取csv文件
  • 钢铁百科:Q420DR力学性能、Q420DR执行标准、Q420DR低温容器钢板
  • 三菱机器人手柄维修示教器维修手操器面板等
  • 中间件的学习理解总结
  • 编程秘密武器:提升工作效率的关键工具
  • Git+word记笔记
  • java-antrl手敲命令的hello world
  • 法规探讨 | 《医疗器械管理法(草案征求意见稿)》初探(1)
  • 大语言模型的上下文窗口(Context Windows):对人工智能应用的影响
  • Java【数组】
  • xAI巨无霸超级计算机上线:10万张H100 GPU,计划翻倍至20万张
  • python集合
  • 算法打卡 Day29(回溯算法)-复原 IP 地址 + 子集 + 子集 Ⅱ
  • LeetCode 热题100-17 缺失的第一个正数
  • 基于CloudflareSpeedTest项目实现git clone加速
  • 对与单纯post方法写项目的修改成baseservlet方法
  • 北京地铁换乘站人流量监控与图像识别技术优化