当前位置: 首页 > article >正文

AgentCPM-GUI,清华联合面壁智能开源的端侧GUI智能体模型

AgentCPM-GUI是什么

AgentCPM-GUI 是由清华大学与面壁智能团队联合开发的一款开源端侧图形用户界面(GUI)代理,专为中文应用进行优化。基于 MiniCPM-V 模型(80 亿参数),该系统能够接收智能手机的屏幕截图,并自主完成用户指定的任务。通过对大规模中文安卓应用界面数据的预训练,AgentCPM-GUI 显著增强了对 GUI 元素的理解和定位能力。在中文 Grounding Benchmark 和 Agent Benchmark 上,该产品均达到了最先进的性能标准,成为首个针对中文应用进行精细优化的开源 GUI 代理。

AgentCPM-GUI的主要功能

  • 中文应用操作:能够理解并操作多种中文应用程序,例如高德地图、大众点评、哔哩哔哩和小红书等。
  • 任务自动化执行:接受用户的指令后,自动拆分任务步骤,并在相应应用中精确执行,例如下单、播放视频等。
  • 高质量 GUI 定位:能够准确定位屏幕上的按钮、输入框、标签等各种 GUI 元素。
  • OCR 定位与识别:能够识别屏幕中的文本信息,并根据文本内容执行相应的操作。

AgentCPM-GUI的技术原理

  • 预训练:基于大规模中文安卓应用界面的数据进行预训练,覆盖了常见的按钮、输入框、标签和图标等通用 GUI 控件。通过高质量的 GUI Grounding 预训练,提升了模型对视觉界面元素的理解与定位能力,同时具备 OCR Grounding 能力,能够准确定位和识别屏幕中的文本信息。
  • 强化微调(RFT):设计了动作格式奖励、动作类型奖励和动作参数奖励三个维度的奖励函数,以引导模型自主生成高质量的思维链过程。在奖励函数的引导下,模型不断优化策略,提升任务执行的成功率。
  • 紧凑动作空间设计:采用紧凑的 JSON 格式,将动作平均长度压缩至 9.7 个 token,减少推理过程中的计算和内存需求。这种设计使模型更适合在移动设备上部署,加快端侧推理速度,并缓解隐私安全问题。

AgentCPM-GUI的项目地址

  • GitHub仓库:https://github.com/OpenBMB/AgentCPM-GUI
  • HuggingFace模型库:https://huggingface.co/openbmb/AgentCPM-GUI

AgentCPM-GUI的应用场景

  • 智能助手:帮助用户通过语音或文字指令完成各种应用操作,如点外卖、播放音乐等。
  • 自动化测试:用于自动化测试中文应用的功能和界面,从而提高测试效率。
  • 老年关怀:简化老年人使用智能手机的操作,例如视频通话、查看天气等。
  • 视障人士辅助:结合语音指令和屏幕阅读器,帮助视障人士更便捷地使用应用。
  • 企业应用自动化:自动执行企业中的重复性任务,如数据录入和报表生成,从而提升工作效率。

常见问题

  • 如何安装AgentCPM-GUI?:用户可以通过访问GitHub仓库获取详细的安装指南。
  • AgentCPM-GUI支持哪些设备?:该工具主要支持运行安卓系统的智能手机。
  • 如何提高任务执行的准确性?:确保提供清晰的指令,并使用高质量的屏幕截图,以便系统更好地理解用户需求。
  • 使用AgentCPM-GUI是否安全?:AgentCPM-GUI设计时考虑了用户隐私,数据处理过程遵循严格的隐私保护标准。
http://www.lryc.cn/news/2378954.html

相关文章:

  • Go语言实现链式调用
  • 重排序模型解读 mxbai-rerank-base-v2 强大的重排序模型
  • 期望是什么:(无数次的均值,结合概率)21/6=3.5
  • uniapp-vue3项目中引入高德地图的天气展示
  • 容器化-k8s-介绍及下载安装教程
  • lc42接雨水
  • 通义千问-langchain使用构建(三)
  • uniapp自动构建pages.json的vite插件
  • 系统漏洞扫描服务:维护网络安全的关键与服务原理?
  • nlf loss 学习笔记
  • 【Redis】零碎知识点(易忘 / 易错)总结回顾
  • 基于three.js 全景图片或视频开源库Photo Sphere Viewer
  • LangPDF: Empowering Your PDFs with Intelligent Language Processing
  • OpenVLA (2) 机器人环境和环境数据
  • 代码复现5——VLMaps
  • Ocean: Object-aware Anchor-free Tracking
  • 计算机网络(1)——概述
  • 刘家祎双剧收官见证蜕变,诠释多面人生
  • Axure制作可视化大屏动态滚动列表教程
  • MATLAB实现振幅调制(AM调制信号)
  • LLM-Based Agent综述及其框架学习(五)
  • 6.1.1图的基本概念
  • Linux面试题集合(6)
  • 时间筛掉了不够坚定的东西
  • Python集合运算:从基础到进阶全解析
  • jvm安全点(二)openjdk17 c++源码垃圾回收安全点信号函数处理线程阻塞
  • YOLOv7训练时4个类别只出2个类别
  • 【论文阅读】针对BEV感知的攻击
  • 18.中介者模式:思考与解读
  • flutter 配置 安卓、Ios启动图