当前位置: 首页 > news >正文

2024具身智能模型汇总:从训练数据、动作预测、训练方法到Robotics VLM、VLA

前言

本文一开始是属于此文《GRAPE——RLAIF微调VLA模型:通过偏好对齐提升机器人策略的泛化能力》的前言内容之一(该文发布于23年12月底),但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之

当时的前言是

具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且所有点我都做了详尽而细致的解读,点击下表中对应的文字即可阅读,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接


有意思的是,其中的RDT、π0都通过聚合各大机器人数据集先做预训练,然后微调,且它两的参数规模也分别达到了1B、3B

大有类似大语言模型的发展路线,比如

  • 17-20年,以BERT、GPT为代表的预训练-微调模式
    且从GPT3起,模型的参数规模越来越大,慢慢的不再需要针对下游特定任务做微调——一个模型搞定所有任务
  • 途中经历过GPT3.5的RLHF微调
  • 及至到GPT4之后,模型在各方面的能力逼近人类甚至超越人类

你说,是不是有趣?

    第一部分 从训练数据来源、动作预测策略、模型训练方法

    1.1 训练数据来源

    2024年具身前沿模型/策略大汇总说明补充备注典型代表
    第一大块 训练数据来源人类行为视频数据相当于互联网上大规模的视频数据,比如YouTube上的比如DexMV、MimicPlay、字节GR2
    开源数据需要一定的整合比如Open X-Embodiment等
    仿真数据毕竟仿真环境中训练base model,最后真实环境中微调,是常见训练方式1 英伟达的Isaac Sim:整合了物理引擎PhysX、图像渲染引擎RTX、动画/电影描述格式USD
    2 Google的MuJoCo
    人工收集手持夹爪,收集方便umi/fastumi
    动作捕捉,精度较高dexcap
    遥操,精度很高主从机械臂遥操数据ALOHA
    VR遥操Open-television

    1.2 动作预测策略

    2024年具身前沿模型/策略大汇总说明补充备注典型代表
    第二大块 动作预测策略iDP3(改进的3D diffusion policy)可落地在人形机器人上斯坦福iDP3
    3D diffusion policy将3D视觉表示与扩散策略3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
    Diffusion Policy(还可基于点云)diffusion policy基于扩散模型UMI/dexcap
    Diffusion Transformer(DiT)基于Diffusion Transformer(DiT)改造

    ​清华RDT

    预测与动作扩散器PAD:通过联合去噪同时预测未来图像和动作Prediction with Action: Visual Policy Learning via Joint Denoising Process

    ACT

    ACT基于Transformer

    Mobile ALOHA

    基于下一个token预测技术预测动作token基于类似下个token预测策略
    伯克利Digit

    1.3 模型训练方法

    1.3.1 非Robotics VLM与VLA的训练方法

    2024年具身前沿模型/策略大汇总说明补充备注典型代表

    第三大块

    模型训练方法

    直接真实环境中RL开训,摒弃仿真真实环境中得到的RL数据微调VLM + 机器人动作微调:RL训练运行创建的数据集,可以用于二次训练,代替人类提供的例子(效果如何 待验证)UC伯克利的Sergey Levine,于24年年底在DAI 2024上的演讲:RLDG——Reinforcement Learning Distilled Generalist
    结合视觉和人类示教与纠正的RL方法,目前暂时还是小众赛道UC伯克利的HIL-SERL
    RL仿真 + VR遥操估计人类动作 + 人类动作到人形机器人的重定向凡是人形,必涉及到基于AMASS数据集(包括SMPL-X做参数化建模)做人形运动目标的重新定位 + sim to real(师生学习/策略蒸馏) + VR遥操
    OmniH2O
    RL仿真训本体 + RGB遥操部署Retargeting、Sim-to-Real、RGB Real-time遥控H2O:通过重定向清除不可行的动作,然后仿真训练,最后RGB实时遥操作部署(使用训练好的Sim-to-Real模仿策略进行模仿)
    仿真中训小脑HST(仿真中训练好之后,RGB遥操部署)
    且其真实中训大脑HIT
    HumanPlus:RL仿真训本体 + 人类示教(模仿学习/行为克隆)训大脑
    静态数据训练 + 人类示教比如通过示范数据做行为克隆,更结合前身ALOHA的静态数据做协同训练Mobile ALOHA

    1.3.2 Robotics VLM与VLA的训练方法

    2024年具身前沿模型/策略大汇总说明补充备注典型代表

    第三大块

    模型训练方法

    预训练的VLA先对VLM基于机器人数据(开源OXE + 自采,或只开源OXE)做二次预训练(模仿人类)变成VLA,再真实环境中微调VLA1 π0:先在高度多样化的开源 + 自采机器人数据上进行预训练——变成了相比不二次预训练情况下更强大的VLA,然后针对所需任务进行微调
    2 RT2和OpenVLA:只在开源OXE上做的预训练
    不用预训练的VLA其考虑到预训练成本较高TinyVLA
    预训练的Robotics VLM针对VLM的二次预训练,通过开源OXE训练VLM变成Robotics VLMOcto:在Open X-Embodiment数据集上进行预训练
    不预训练的Robotics VLM没有针对VLM的二次预训练,而是直接机器人数据微调VLM变成Robotics VLM字节RoboFlamingo:使用简单、少量的微调就可以把 VLM 变成 Robotics VLM

    第二部分 Robotics VLM和VLA中的动作预测

    2.1 Robotics VLM和VLA中的动作预测

    2024年具身前沿模型/策略大汇总说明补充备注典型代表
    第四大块 Robotics VLM和VLA中的动作预测专门的action head

    基于LSTM

    Robotics VLM:字节RoboFlamingo
    基于diffusion modelRobotics VLM:Octo
    VLA:TinyVLA(diffusion-based head)
    基于流匹配VLA:π0 (流匹配微调VLM)
    基于Diffusion Transformer(DiT)VLA:CogACT(相比Octo的头 更大)
    基于下一个token预测技术预测动作token对于离散化token动作表示,即指将机器人的每个动作维度分别离散化为 256 个箱子中的一个VLA:RT-2OpenVLA(相当于RT-2开源版)

    第三部分 借鉴大语言模型的发展之路

    3.1 借鉴大语言模型的发展之路

    2024年具身前沿模型/策略大汇总说明补充备注典型代表
    第五大块 借鉴大语言模型的发展之路预训练-微调模式中把模型搞大需要架构、数据双双具备RDT、π0
    把RLHF引入近具身通过偏好对齐提升机器人策略的泛化能力GRAPE
    把CoT引入具身让具身模型学会逐步推理ECoT
    让VLM充当机器人大脑,做顶层任务规划机器人基础模型(相当于大脑):用于整体任务规划
    机器人操控模型(相当于小脑):用于精确控制
    Figure 01、清华ViLA、CoPa
    让大模型来打辅助:推理、规划样样行基于VLM模型GPT-4o和关系关键点约束ReKep
    VLM解释人类演示视频,并为机器人生成任务计划、代码纽约大学:VLM See, Robot Do
    结合「GPT4V的open-world vision能力」和重定向OKAMI

    更多可以查看此文《RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据》

      http://www.lryc.cn/news/530464.html

      相关文章:

    1. Day33【AI思考】-函数求导过程 的优质工具和网站
    2. 【URL】一个简单基于Gym的2D随机游走环境,用于无监督强化学习(URL)
    3. 【VM】VirtualBox安装ubuntu22.04虚拟机
    4. MySQL的GROUP BY与COUNT()函数的使用问题
    5. C# 精炼题18道题(类,三木运算,Switch,计算器)
    6. 96,【4】 buuctf web [BJDCTF2020]EzPHP
    7. 数据库 - Sqlserver - SQLEXPRESS、由Windows认证改为SQL Server Express认证进行连接 (sa登录)
    8. 2025年02月02日Github流行趋势
    9. 【数据分析】案例03:当当网近30日热销图书的数据采集与可视化分析(scrapy+openpyxl+matplotlib)
    10. 如何使用 DeepSeek 和 Dexscreener 构建免费的 AI 加密交易机器人?
    11. buu-jarvisoj_level0-好久不见30
    12. 深度学习查漏补缺:1.梯度消失、梯度爆炸和残差块
    13. 【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】2.2 多维数组切片:跨步访问与内存布局
    14. ResNet--深度学习中的革命性网络架构
    15. TypeScript语言的语法糖
    16. 17.2 图形绘制4
    17. tomcat核心组件及原理概述
    18. 本地部署DeepSeek教程(Mac版本)
    19. MyBatis-Plus笔记-快速入门
    20. 爬取豆瓣书籍数据
    21. 基于微信小程序的电子商城购物系统设计与实现(LW+源码+讲解)
    22. 6-图像金字塔与轮廓检测
    23. 【Ai】DeepSeek本地部署+Page Assist图形界面
    24. 【最长不下降子序列——树状数组、线段树、LIS】
    25. 【实战篇章】深入探讨:服务器如何响应前端请求及后端如何查看前端提交的数据
    26. Games104——引擎工具链基础
    27. 分层多维度应急管理系统的设计
    28. 【漏斗图】——1
    29. (二)QT——按钮小程序
    30. 【Linux】从硬件到软件了解进程