当前位置: 首页 > news >正文

VLA--Gemini Robotics On-Device: 将AI带到本地机器人设备上


更多内容:XiaoJ的知识星球


目录

  • 1. 一种高效、本地的机器人模型
  • 2. 模型能力和性能
  • 3. 可适应新任务,跨实体泛化
  • 4. Gemini Robotics SDK
  • 5. MuJoCo物理模拟器
  • 参考


.

Gemini Robotics On-Device:谷歌DeepMind推出可本地运行于机器人本体的高效通用 VLA(视觉语言行动)模型,具备灵巧操作与快速任务适应能力,断网也能低延迟稳定工作。搭配 Gemini Robotics SDK ,可在 MuJoCo 模拟器或真实环境中评测与微调模型。

.

1. 一种高效、本地的机器人模型

今年 3 月,Google 推出了 Gemini Robotics,一个先进的 VLA(视觉语言行动)模型,将 Gemini 2.0 的多模态推理和现实世界理解带入物理世界。

紧接着,Google 推出 Gemini Robotics On-Device,一个很强大的 VLA 模型,专为在机器人设备本地运行而优化。Gemini Robotics On-Device 展现出强大的通用灵巧性和任务泛化能力,并且针对在机器人本身高效运行进行了优化。由于该模型独立于数据网络运行,因此它适用于对延迟敏感的应用,并确保在间歇性或无连接的环境中保持稳健性。

还提供 Gemini Robotics SDK ,帮助开发者轻松在他们的任务和环境上评估 Gemini Robotics On-Device,在 MuJoCo 物理模拟器中测试我们的模型,并快速将其应用于新领域,只需 50 到 100 个演示即可。开发者可以通过加入可信测试者计划来获取 SDK。

.

2. 模型能力和性能

Gemini Robotics On-Device 是一款双臂机器人的机器人基础模型,对计算资源要求极低。它在 Gemini Robotics 的任务泛化与灵巧操作能力之上,进一步具备:

  • 面向灵巧操控的快速实验设计

  • 通过微调即可适应新任务并提升表现

  • 本地低延迟推理优化

该模型在多种测试场景中展现出卓越的视觉、语义与行为泛化能力,可理解自然语言指令,并完成诸如拉开拉链、折叠衣物等高灵巧度任务——全部直接在机器人端运行。

Gemini Robotics On-Device 强大的泛化性能和指令跟随性能表现。

在这里插入图片描述
图表:评估 Gemini Robotics On-Device 泛化性能的图表

在这里插入图片描述
图表:评估 Gemini Robotics On-Device 指令跟随性能的图表

.

3. 可适应新任务,跨实体泛化

Gemini Robotics On-Device 是谷歌DeepMind首次提供的可用于微调的 VLA 模型。虽然许多任务可以直接使用,但开发者也可以选择调整模型以实现其应用更好的性能。我们的模型能够快速适应新任务,只需 50 到 100 个示例即可——这表明该设备模型能够多么好地将其基础知识泛化到新任务中。

这里,展示了 Gemini Robotics On-Device 在涉及针对新模型进行微调的任务上,如何优于当前的最好设备端 VLA。我们在七个不同难度的灵巧操作任务上测试了该模型,包括系午餐盒、抽牌和倒沙拉酱等。

在这里插入图片描述
图表:展示 Gemini Robotics On-Device 任务适应性能的图表

可将 Gemini Robotics On-Device 模型适配到不同的机器人形态上。虽然训练是在 ALOHA 机器人,但能够进一步将其适配到双臂 Franka FR3 机器人和 Apptronik 的 Apollo 人形机器人。

  • 在双臂 Franka 机器人上,该模型执行通用指令跟随,包括处理先前未见过的物体和场景,完成折叠衣服等灵巧任务,或执行需要精确度和灵巧性的工业皮带组装任务。

  • 在 Apollo 人形机器人上,可将模型适配于一个显著不同的形态。相同的通用模型可以遵循自然语言指令,并以通用方式操作不同的物体,包括之前未见过的物体。

.

4. Gemini Robotics SDK

Gemini Robotics SDK:https://github.com/google-deepmind/gemini-robotics-sdk:https://github.com/google-deepmind/gemini-robotics-sdk

Safari SDK 提供了使用 Gemini Robotics 模型系列中的所有模型所需的完整生命周期工具,包括但不限于,访问检查点、部署模型、在机器人和模拟环境中评估模型、上传数据、微调模型、下载微调后的检查点等。大多数功能需要您加入 Gemini Robotics 可信测试者计划才能使用。

.

1)安装

Safari SDK 可以通过 PyPI 轻松安装。

pip install safari_sdk

源代码可在 https://github.com/google-deepmind/gemini-robotics-sdk 上找到。

.

2)构建wheel

构建Python wheel:

scripts/build_wheel.sh

这个脚本将构建一个可用于 pip 安装的 Safari SDK 轮子,并将文件路径打印到标准输出。

.

3)Flywheel CLI

Flywheel CLI 是在安装 pip 包后可用的便捷 CLI 工具。它提供了一套与 Gemini Robotics 平台交互的命令,例如训练模型、服务模型、管理数据和下载工件。

要使用 CLI:

flywheel-cli <command> [--flags] [--flags]

支持的命令有:

  • train:训练一个模型。需要指定任务 ID、开始日期和结束日期。

  • serve:部署一个模型。需要指定训练作业 ID。

  • list:列出可用的训练作业。

  • list_serve: 列出可用的服务任务。

  • data_stats: 显示可用于训练的数据统计信息。

  • download: 从训练任务或特定的工件 ID 下载工件。

  • upload_data: 将数据上传到数据摄取服务。

  • version: 显示 SDK 的版本。

  • help: 显示所有可用命令和标志的帮助信息。

.

5. MuJoCo物理模拟器

MuJoCo物理模拟器:https://github.com/google-deepmind/aloha_sim

Aloha Sim 是一个定义 Aloha 机器人模拟环境的 Python 库。它包含一系列用于机器人学习和评估的任务。

.

1)安装

使用 pip 安装:

# create a virtual environment and pip install
pip install -e .

或者直接使用 uv 运行

pip install uv
uv run <script>.py

告诉 Mujoco 使用哪个后端,否则模拟将会非常慢

export MUJOCO_GL='egl'

.

2)测试

# 在没有策略的情况下与场景交互
python aloha_sim/viewer.py --policy=no_policy --task_name=HandOverBanana# individual tests
python aloha_sim/tasks/test/aloha2_task_test.py
python aloha_sim/tasks/test/hand_over_test.py
...# all tests
python -m unittest discover aloha_sim/tasks/test '*_test.py'

.

3)推理

使用 Gemini Robotics 模型进行推理 受信任的测试者。如果您不是受信任的测试者,请在此注册 此处 .

请遵循 SDK 文档 来部署模型。用于真实世界评估的相同模型可以直接应用于模拟。

(1)安装 SDK 依赖

pip install aloha_sim[inference]

(2)交互式展开

使用选定任务启动查看器:

# defaut task: "put the banana in the bowl"
python aloha_sim/viewer.py# "remove the cap from the marker"
python aloha_sim/viewer.py --task_name=MarkerRemoveLid# "place the can opener in the left compartment of the caddy"
python aloha_sim/viewer.py --task_name=ToolsPlaceCanOpenerInLeftCompartment
...

查看 task_suite.py 获取所有可用任务列表。

您可以使用查看器暂停/继续环境,与对象交互,并为机器人输入新指令。

Instructions for using the viewer:- shift + 'i' = enter new instruction
- space bar = pause/resume.
- backspace = reset environment.
- mouse right moves the camera
- mouse left rotates the camera
- double-click to select an objectWhen the environment is not running:- ctrl + mouse left rotates a selected object
- ctrl + mouse right moves a selected objectWhen the environment is running:- ctrl + mouse left applies torque to an object
- ctrl + mouse right applies force to an object

(3)评估

python aloha_sim/run_eval.py

对所有任务运行 N 个评估周期,并将视频保存在 /tmp/

.


.

参考

Gemini Robotics:https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

Gemini Robotics On-Device:https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/

Gemini Robotics SDK:https://github.com/google-deepmind/gemini-robotics-sdk

MuJoCo物理模拟器:https://github.com/google-deepmind/aloha_sim

可信测试者计划注册:https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/viewform?ts=67cef986&edit_requested=true

.


声明:资源可能存在第三方来源,若有侵权请联系删除!

http://www.lryc.cn/news/603281.html

相关文章:

  • 在WSL中配置VS Code C++开发环境完整教程
  • LeetCode 1616.分割两个字符串得到回文串
  • 【21】C# 窗体应用WinForm ——图片框PictureBox属性、方法、实例应用
  • 【MySQL学习|黑马笔记|Day2】SQL|DML、DGL、DCL,函数,约束
  • redis得到shell的几种方法
  • 搭建专属AI聊天网站:NextChat + 蓝耘MaaS平台完整部署指南
  • 《C++初阶之STL》【list容器:详解 + 实现】
  • 夯实家庭基石本质上是一场“缓慢的革命”
  • 【Redis实现基础的分布式锁及Lua脚本说明】
  • 使用 Canvas 替代 <video> 标签加载并渲染视频
  • 【深度学习】独热编码(One-Hot Encoding)
  • 怎么提升服务器的防攻击能力!
  • day064-kodbox接入对象存储与配置负载均衡
  • 「源力觉醒 创作者计划」 百度AI的战略“惊蛰”,一场重塑格局的“破壁行动”
  • JSON在java中的使用
  • 力扣热题100--------240.搜索二维矩阵
  • 半导体企业选用的跨网文件交换系统到底应该具备什么功能?
  • Spring Boot 请求限流实战:基于 IP 的高效防刷策略
  • Qt 并行计算框架与应用
  • 重塑浏览器!微软在Edge加入AI Agent,自动化搜索、预测、整合
  • [明道云]-基础教学2-工作表字段 vs 控件:选哪种?
  • nodejs 实现Excel数据导入数据库,以及数据库数据导出excel接口(核心使用了multer和node-xlsx库)
  • 架构实战——互联网架构模板(“用户层”和“业务层”技术)
  • 向量内积:揭示方向与相似性的数学密码
  • 瑞盟NFC芯片,MS520
  • 网上买卖订单处理手忙脚乱?订单处理工具了解一下
  • Radash.js 现代化JavaScript实用工具库详解 – 轻量级Lodash替代方案
  • python优秀案例:基于机器学习算法的景区旅游评论数据分析与可视化系统,技术使用django+lstm算法+朴素贝叶斯算法+echarts可视化
  • 机器学习、深度学习与数据挖掘:三大技术领域的深度解析
  • uipath数据写入excel的坑