当前位置: 首页 > news >正文

vivo发布2023 年度科技创新;阿里全新AI代理,可模拟人类操作手机

vivo 发布 2023 年度十大产品技术创新

近日,vivo 发布了「2023 年度科技创新」十大产品技术创新榜单,并将这些技术分为了 4 个板块。

「四大蓝科技」为 vivo 在去年推出的全新技术品牌,涵盖蓝晶芯片技术栈、蓝海续航系统、蓝心大模型、蓝河操作系统等。其中的 AI 蓝心大模型矩阵,在多个相关榜单的排名都是第一梯队的水准,并且覆盖十亿、百亿、千亿三个参数量级。

影像算力方面,vivo 发布的了 6nm 影像芯片 V3,能效提升了 30%,并且用 AIGC 等新技术,赋能手机影像。

性能创新方面,vivo 发布了自研电竞芯片 Q1,通过芯片优化设计和自研算法提升,实现真正的低时延插帧。

 

 

阿里全新多模态 AI 代理,可模拟人类操作手机

Mobile-Agent 是阿里巴巴和北京交通大学开发的可以模拟人类操作手机的自主多模态 AI 代理。该项目利用人工智能技术,特别是在多模态大型语言模型(如 GPT-4V)的应用,以实现移动设备代理的自主决策和交互。

Mobile-Agent 首先利用视觉感知工具来准确识别和定位应用程序前端界面中的视觉和文本元素。基于感知到的视觉上下文,它会自主规划和分解复杂的操作任务,并逐步导航移动应用程序进行操作。

实验结果表明 Mobile-Agent 取得了显著的准确率和完成率。即使有挑战性的指令,例如多应用程序操作,Mobile-Agent 仍然可以完成要求。

Mobile-Agent 最大的特点为:

* 纯可视化解决方案,独立于 XML 和系统元数据。

* 操作范围不受限制,可进行多应用操作。

* 多种视觉感知工具,用于操作定位。

* 无需探索和培训,即插即用。

http://www.lryc.cn/news/297328.html

相关文章:

  • 【制作100个unity游戏之23】实现类似七日杀、森林一样的生存游戏15(附项目源码)
  • python巧用定理判断素数
  • 2023年总结
  • Git中为常用指令配置别名
  • STM32内部Flash
  • html5 audio video
  • LoveWall v2.0Pro社区型校园表白墙源码
  • Flink cdc3.0动态变更表结构——源码解析
  • WWW 2024 | 时间序列(Time Series)和时空数据(Spatial-Temporal)论文总结
  • 代码随想录算法——数组
  • Linux第45步_通过搭建“DNS服务器”学习图形化配置工具
  • 【Linux取经路】探寻shell的实现原理
  • 【MATLAB】使用随机森林在回归预测任务中进行特征选择(深度学习的数据集处理)
  • 2024Node.js零基础教程(小白友好型),nodejs新手到高手,(六)NodeJS入门——http模块
  • 【数据结构与算法】(5)基础数据结构之队列 链表实现、环形数组实现详细代码示例讲解
  • (注解配置AOP)学习Spring的第十七天
  • [C++] opencv + qt 创建带滚动条的图像显示窗口代替imshow
  • C#用Array类的Reverse方法反转数组中元素
  • iOS AlDente 1.0自动防过充, 拯救电池健康度
  • 春晚刘谦魔术——约瑟夫环
  • itextpdf使用:使用PdfReader添加图片水印
  • 如何为Kafka加上账号密码(二)
  • 【大数据】Flink on YARN,如何确定 TaskManager 数
  • ES节点故障的容错方案
  • 【Flink】FlinkSQL实现数据从Kafka到MySQL
  • Unity GC
  • Vue源码系列讲解——变化侦测篇【下】(Array的变化侦测)
  • 【机器学习笔记】贝叶斯学习
  • ElasticSearch之倒排索引
  • win11安装mysql8.3.0压缩包版 240206