当前位置: 首页 > news >正文

GPT-4V-Act :一个多模态AI助手,能够像人类一样模拟通过鼠标和键盘进行网页浏览。

内容来源:@xiaohuggg

GPT-4V-Act :一个多模态AI助手,能够像人类一样模拟通过鼠标和键盘进行网页浏览。

它可以模拟人类浏览网页时的行为,如点击链接、填写表单、滚动页面等。

它通过视觉理解技术识别网页上的元素,就像人眼一样,能够“看到”按钮、文本框、图片等,并理解它们的功能和用途。

这个工具的目的是让AI能够自动完成一些需要人工操作的任务,从而提高工作效率,帮助人们更容易地使用各种网页界面。

工作原理:

GPT-4V-Act利用GPT-4V语言理解能力和视觉处理能力以及一套特定的自动标记工具(Set-of-Mark)的视觉定位能力,该工具为每个可交互的UI元素分配一个唯一的数字ID。

通过结合任务和截图作为输入,GPT-4V-Act可以推断出完成任务所需的后续动作。它能够检查UI截图并提供精确的像素坐标,以指导鼠标/键盘执行特定任务。

目前,这个演示还很基础,它利用网页抓取技术将ChatGPT Plus变形为一个非官方的GPT-4V API后端。尽管目前的测试有限,但该代理已经显示出了在Reddit上发布帖子、搜索产品和启动结账过程的能力。

主要特点:

1、视觉处理:能够处理视觉信息,但支持程度有限。

2、自动标记:使用JS DOM自动标记器为UI元素分配数字ID,支持COCO数据格式的导出。

3、鼠标和键盘操作:能够执行点击和输入字符操作。

4、特殊键码输入:目前还不支持输入特殊键码(如回车、页面上移、页面下移)。

5、其他功能:滚动、提示用户提供更多信息、记住与任务相关的信息等功能也尚未支持。

GitHub:httpshttps://github.com/ddupont808/GPT-4V-Act

视觉定位:https://https://som-gpt4v.github.io/
原帖:httpshttps://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/?rdt=50049ent_gpt4vact/

http://www.lryc.cn/news/236935.html

相关文章:

  • 剪辑视频怎么把说话声音转成文字?
  • maven打包插件配置模板
  • clusterProfiler包学习
  • 【Qt开发流程之】布局管理
  • 建筑可视化中的 3D 纹理
  • 9.docker镜像Tag为none的原因
  • HTML5学习系列之响应式图像
  • 基于数据库(MySQL)与缓存(Redis)实现分布式锁
  • 2023年A特种设备相关管理(锅炉压力容器压力管道)证模拟考试题库及A特种设备相关管理(锅炉压力容器压力管道)理论考试试题
  • 系统及其存储相关
  • 鸿蒙原生应用开发-折叠屏、平板设备服务卡片适配
  • android查漏补缺(8)Android广播不同种类介绍
  • 什么是美颜SDK?直播美颜SDK技术深度剖析
  • 红海营销时代,内容占位的出海品牌更有机会营销占位
  • 解决龙芯loongarch64服务器编译安装Python后yum命令无法使用的问题“no module named ‘dnf‘”
  • Leetcode2937. 使三个字符串相等
  • <MySQL> 如何合理的设计数据库中的表?数据表设计的三种关系
  • 基于操作系统讨论Java线程与进程、浅谈Go的线程与管程
  • CICD 持续集成与持续交付——jenkins
  • 【Zabbix】Zabbix Agent 2在Ubuntu/Debian系统上的安装
  • 浅谈无线测温产品在菲律宾某工厂配电项目的应用
  • 软件工程第十一周
  • 【从入门到起飞】JavaSE—带你了解Map,HashMap,TreeMap的使用方法
  • [Docker]六.Docker自动部署nodejs以及golang项目
  • FPC焊点剥离失效分析
  • Java爬虫框架下代理使用中的TCP连接池问题及解决方案
  • PostgreSQL 数据定义语言 DDL
  • 设计模式-行为型模式-策略模式
  • ResizeObserver观察元素宽度的变化
  • 斐波那契数列,剑指offer,力扣