当前位置: 首页 > news >正文

可实现三重空间感知:Ai2 开源具身机器人 AI 模型 MolmoAct

8 月 16 日消息,研究机构 Ai2 现已在 GitHub 开源了旗下 MolmoAct 机器人“行动推理模型”(Action Reasoning Model,ARM)模型,该模型主要运用于具身机器人场景,号称可以解决机器人在三维空间中的动作规划与理解问题

据介绍,与传统仅依赖文字描述推导动作的视觉语言行动模型(VLA)不同,MolmoAct 旨在克服语言难以完整表达三维环境深度和距离关系的不足。因此 MolmoAct 在第一阶段会首先生成由 VQVAE 预训练得到的空间感知 Token,相应 Token 同时包含几何结构与位置信息,可用于评估物体间的距离,并为后续规划提供基础。

 

而在第二阶段,模型会在图像空间中生成一系列路径点,作为任务的中间目标,直观展示动作展开的顺序。第三阶段,路径点会被转化为机器人末端执行器或机械爪的低层马达指令,并根据机器人运动学配置进行动作解码。

 

研究团队指出,在名为 SimplerEnv 的模拟测试环境中,MolmoAct-7B 在训练集未见过的任务中达到了 72.1% 的成功率,优于 Physical Intelligence、谷歌、微软和英伟达等实验室的对照模型。在 LIBERO 模拟平台的多任务与终身学习测试中,经过高效参数微调,平均成功率提升至 86.6%。同时,相比业界 AI 机器人大模型,MolmoAct 的训练成本更低:预训练仅使用了 2630 万样本和 256 颗 H100 GPU,大约 1 天即可完成;微调则只需 64 颗 H100,约 2 小时即可完成。

 

此外,为降低机器人操作风险并提升可解释性,MolmoAct 在执行动作前会将内部规划的运动轨迹叠加到输入图像上,用户可以直接查看并修正动作方案。同时,用户还可以通过平板等设备使用手绘方式标注目标姿态或路径,模型会即时整合这些标注进行一系列调整。

目前,Ai2 已在 GitHub 同步开源了 MolmoAct-7B 的完整资源(https://github.com/allenai/MolmoAct),官方强调,这些资源与工具可以帮助其他研究团队在不同机器人平台和任务中充分验证与优化。

原文链接:可实现三重空间感知:Ai2 开源具身机器人 AI 模型 MolmoAct - IT之家

 

http://www.lryc.cn/news/626582.html

相关文章:

  • 从防抖节流到链表树:编程世界中的抽象优化艺术
  • 23种设计模式——模板方法模式(Template Method Pattern)详解
  • 在一台没联网的机器上,用ollama加载qwen3,14b
  • 遥感机器学习入门实战教程|Sklearn 案例④ :多分类器对比(SVM / RF / kNN / Logistic...)
  • 使用 GraalVM Native Image 将 Spring Boot 应用编译为跨平台原生镜像:完整指南
  • Spring Boot 配置
  • nvidia最新论文:小型语言模型是代理人工智能的未来
  • (5)软件包管理器 yum | Vim 编辑器 | Vim 文本批量化操作 | 配置 Vim
  • 5G-A赋能AR眼镜:毫米级虚实融合的未来已来
  • 开源 AR 眼镜怎么选?OpenGlass ,OSSG,cheApR 分析推荐
  • 给你的Unity编辑器添加实现类似 Odin 的 条件显示字段 (ShowIf/HideIf) 功能
  • 用好 Elasticsearch Ruby 传输层elastic-transport
  • 二维码跳转支付宝、微信小程序二码合一(直接关联、中间页识别跳转)方案
  • python-使用鼠标对图片进行涂抹自定义绘图
  • 自己微调的大模型如何用ollama运行
  • Android 开发问题:android:marginTop=“20px“ 属性不生效
  • 数字化图书管理系统设计实践(java)
  • Redis 复制功能是如何工作的
  • Linux I/O 多路复用实战:Select/Poll 编程指南
  • iOS 应用上架常见问题与解决方案,多工具组合的实战经验
  • Redis--day9--黑马点评--分布式锁(二)
  • C++ 数据结构 和 STL
  • 大数据毕业设计选题推荐-基于大数据的1688商品类目关系分析与可视化系统-Hadoop-Spark-数据可视化-BigData
  • wpf之ComboBox
  • 软件测试面试题真题分享
  • 数据挖掘笔记:点到线段的距离计算
  • 百度Q2财报:总营收327亿 AI新业务收入首次超100亿
  • PDF如何在Adobe Acrobat 中用OCR光学识别文档并保存可编辑文档
  • 【鸿蒙心迹】7×24小时极限求生:当Origin_null遇上鸿蒙,我如何用100杯咖啡换一条跨域活路?
  • 环境搭建:centos7+docker+Oracle