当前位置: 首页 > article >正文

AppAgentx 开源AI手机操控使用分享

项目地址: https://appagentx.github.io/?utm_source=ai-bot.cn

GitHub仓库: https://github.com/Westlake-AGI-Lab/AppAgentX/tree/main

arXiv技术论文:https://arxiv.org/pdf/2503.02268

AppAgentx是什么:

AppAgentX西湖大学推出的一种自我进化式 GUI 代理框架。它通过从执行历史中学习并抽象出高级动作,来提升智能手机交互的效率和智能性。该框架利用记忆与进化机制实现持续优化,性能在测试中显著优于现有方法,为智能代理开辟了新方向。

AppAgentx的主要功能:

自动归纳高效操作模式:检测任务执行中的重复性操作,自动总结为高级别的“一键”操作,简化操作流程。

减少重复计算,提升执行效率:基于记忆和复用执行策略,避免重复推理,让任务执行更高效。

基于视觉的通用操作能力::依赖屏幕视觉信息进行操作,无需后端API支持,在不同软件和设备上通用,实现“即插即用”。

支持复杂任务和跨应用操作: :像人类一样操作各种应用程序,支持复杂的跨应用任务,例如从网页爬取信息后填入Excel,或在多个软件之间联动操作。

AppAgentX的应用场景:

自动化日常操作:自动完成手机设置调整、应用内任务等,减少手动操作。

智能助手增强: 集成到智能助手,帮助用户快速执行复杂任务

企业流程自动化: 用于企业数据录入、报表生成等重复性任务,提高效率。

跨应用任务管理: 支持在不同应用间切换和操作,实现跨平台自动化。

辅助特殊人群: 简化操作流程,帮助老年人或身体不便者更轻松使用手机。

开始使用

  1. LLM 设置和依赖项

本项目使用 LangChain 和 LangGraph 构建代理框架。建议按照其官网建议的安装方法进行安装。其他依赖项请使用pip install -r requirements.txt。LLM 配置请在 文件中调整相关设置config.py

  1. 数据库部署与连接

我们使用 Neo4j 作为代理的内存存储,并利用其 Cypher 查询语言来方便地检索节点。向量存储则使用 Pinecone。请确保在config.py文件中配置了必要的 API 和密钥。更多信息,请访问Neo4j 官网Pinecone 官网

config.py 配置文件

你需要安装Neo4j 到本地,进行部署和运行,同样的Pinecone需要API_KEY

  1. 屏幕识别与特征提取部署

为了简化部署,我们使用 Docker 将屏幕识别和特征提取服务容器化。有关启动容器的说明,请参阅后端文件夹中的 README 文件。请注意,这可能需要 Docker 的 GPU 支持;有关配置,请参阅 Docker 官方文档。这种模块化方法可以轻松替换不同的屏幕解析和特征提取工具,从而显著增强模型的可扩展性。如果您需要部署,请参阅当前项目后端文件夹中的README 文件。

  1. 启动演示

要使用此项目,您首先需要配置ADB(Android Debug Bridge)以将您的 Android 设备连接到您的计算机。

  1. 设置 ADB 并连接您的设备
3.2 在您的电脑上安装 ADB

下载并安装Android Debug Bridge (adb) — 一种命令行工具,可实现您的电脑和 Android 设备之间的通信。

  • 在您的 Android 设备上启用 USB 调试:

  • 转到“设置” > “开发人员选项”并启用“USB 调试”。

  • 使用 USB 数据线将您的设备连接到 PC 。

推荐使用Qtscrcpy工具代替一下

同样的可以使用Android studio的工具进行链接

启动 Gradio

设置好设备或模拟器后,即可启动项目。我们使用Gradio作为前端界面。使用以下命令之一启动演示:

python demo.py 使用前提是你已经安装好了python环境

或者

gradio demo.py

现在,AppAgent就可以使用了!🚀

综上所述的仅适合你是有CUDA显卡的人适合. macos可以直接退出了,因为博主踩坑了. 我还在尝试使用,在macos上测试成功,有待实现.

http://www.lryc.cn/news/2385359.html

相关文章:

  • Axure设计之带分页的穿梭框原型
  • 嵌入式硬件篇---陀螺仪|PID
  • 电机控制储备知识学习(五) 三项直流无刷电机(BLDC)学习(四)
  • Java—— 网络爬虫
  • Baklib内容中台的主要构成是什么?
  • 深度解析 Java 中介者模式:重构复杂交互场景的优雅方案
  • 家用和类似用途电器的安全 第1部分:通用要求 与2005版差异(7)
  • HTTP Digest 认证:原理剖析与服务端实现详解
  • untiy实现汽车漫游
  • PID项目---硬件设计
  • Pluto实验报告——基于FM的音频信号传输并解调恢复
  • 【Redis】AOF日志
  • Leetcode 2792. 计算足够大的节点数
  • 《关于浔川社团退出DevPress社区及内容撤回的声明》
  • Windows逆向工程提升之IMAGE_RESOURCE_DIRECTORY
  • 使用ps为图片添加水印
  • x64_ubuntu22.04.5安装:cuda driver + cuda toolkit
  • 开盘啦 APP 抓包 逆向分析
  • vs2022 Qt Visual Studio Tools插件设置
  • Python包__init__.py标识文件解析
  • 【MySQL】第8节|Innodb底层原理与Mysql日志机制深入剖析(一)
  • 电商ERP管理系统,Java+Vue,含源码与文档,统筹订单、库存等,助力电商企业高效运营
  • Spring Boot微服务架构(四):微服务的划分原则
  • 【打卡】树状数组的操作
  • OpenLayers 加载动画控件
  • Oracle 基础知识作业的使用
  • HTTP协议初认识、速了解
  • C#:多线程Task使用
  • 模拟电子技术基础----绪论
  • 从零基础到最佳实践:Vue.js 系列(2/10):《模板语法与数据绑定》