当前位置：首页 > news >正文

2024具身智能模型汇总：从训练数据、动作预测、训练方法到Robotics VLM、VLA

news 2025/7/14 13:09:32

前言

本文一开始是属于此文《GRAPE——RLAIF微调VLA模型：通过偏好对齐提升机器人策略的泛化能力》的前言内容之一(该文发布于23年12月底)，但考虑到其重要性，加之那么大一张表格看下来阅读体验较差，故抽出取来独立成文且拆分之

当时的前言是

具身的论文解读过很多之后，便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看，且所有点我都做了详尽而细致的解读，点击下表中对应的文字即可阅读，我后续也会不断完善之——毕竟还有很多并未囊括于下表中，如转载请于文章开头标明作者July及本文链接」

有意思的是，其中的RDT、π0都通过聚合各大机器人数据集先做预训练，然后微调，且它两的参数规模也分别达到了1B、3B

大有类似大语言模型的发展路线，比如

17-20年，以BERT、GPT为代表的预训练-微调模式
且从GPT3起，模型的参数规模越来越大，慢慢的不再需要针对下游特定任务做微调——一个模型搞定所有任务
途中经历过GPT3.5的RLHF微调
及至到GPT4之后，模型在各方面的能力逼近人类甚至超越人类

你说，是不是有趣？

第一部分从训练数据来源、动作预测策略、模型训练方法

1.1 训练数据来源

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第一大块训练数据来源	人类行为视频数据	相当于互联网上大规模的视频数据，比如YouTube上的	比如DexMV、MimicPlay、字节GR2
	开源数据	需要一定的整合	比如Open X-Embodiment等
	仿真数据	毕竟仿真环境中训练base model，最后真实环境中微调，是常见训练方式	1 英伟达的Isaac Sim：整合了物理引擎PhysX、图像渲染引擎RTX、动画/电影描述格式USD
	仿真数据	毕竟仿真环境中训练base model，最后真实环境中微调，是常见训练方式	2 Google的MuJoCo
	人工收集	手持夹爪，收集方便	umi/fastumi
		动作捕捉，精度较高	dexcap
		遥操，精度很高	主从机械臂遥操数据ALOHA
		遥操，精度很高	VR遥操Open-television

1.2 动作预测策略

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第二大块动作预测策略	iDP3(改进的3D diffusion policy)	可落地在人形机器人上	斯坦福iDP3
	3D diffusion policy	将3D视觉表示与扩散策略	3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
	Diffusion Policy(还可基于点云)	diffusion policy基于扩散模型	UMI/dexcap
	Diffusion Transformer(DiT)	基于Diffusion Transformer(DiT)改造	清华RDT
	Diffusion Transformer(DiT)	预测与动作扩散器PAD：通过联合去噪同时预测未来图像和动作	Prediction with Action: Visual Policy Learning via Joint Denoising Process
	ACT	ACT基于Transformer	Mobile ALOHA
	基于下一个token预测技术预测动作token	基于类似下个token预测策略
	基于下一个token预测技术预测动作token	基于类似下个token预测策略	伯克利Digit

1.3 模型训练方法

1.3.1 非Robotics VLM与VLA的训练方法

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第三大块模型训练方法	*直接真实环境中RL开训，摒弃仿真*	真实环境中得到的RL数据微调VLM + 机器人动作微调：RL训练运行创建的数据集，可以用于二次训练，代替人类提供的例子(效果如何待验证)	UC伯克利的Sergey Levine，于24年年底在DAI 2024上的演讲：RLDG——Reinforcement Learning Distilled Generalist
	*直接真实环境中RL开训，摒弃仿真*	结合视觉和人类示教与纠正的RL方法，目前暂时还是小众赛道	UC伯克利的HIL-SERL
	*RL仿真 + VR遥操*	估计人类动作 + 人类动作到人形机器人的重定向「凡是人形，必涉及到基于AMASS数据集(包括SMPL-X做参数化建模)做人形运动目标的重新定位」 + sim to real(师生学习/策略蒸馏) + VR遥操
	*RL仿真 + VR遥操*		OmniH2O
	*RL仿真训本体 + RGB遥操部署*	Retargeting、Sim-to-Real、RGB* Real-time遥控*	H2O：通过重定向清除不可行的动作，然后仿真训练，最后RGB实时遥操作部署(使用训练好的Sim-to-Real模仿策略进行模仿)
	*RL仿真训本体 + RGB遥操部署*	*仿真中训小脑HST(仿真中训练好之后，RGB遥操部署)* 且其真实中训大脑HIT	*HumanPlus*：RL仿真训本体 + 人类示教(模仿学习/行为克隆)训大脑
	*静态数据训练 + 人类示教*	比如通过示范数据做行为克隆，更结合前身ALOHA的静态数据做协同训练	Mobile ALOHA

1.3.2 Robotics VLM与VLA的训练方法

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第三大块模型训练方法	预训练的VLA	先对VLM基于机器人数据(开源OXE + 自采，或只开源OXE)做二次预训练(模仿人类)变成VLA，再真实环境中微调VLA	1 π0：先在高度多样化的开源 + 自采机器人数据上进行预训练——变成了相比不二次预训练情况下更强大的VLA，然后针对所需任务进行微调
	预训练的VLA		2 RT2和OpenVLA：只在开源OXE上做的预训练
	*不用预训练的VLA*	其考虑到预训练成本较高	TinyVLA
	预训练的Robotics VLM	针对VLM的二次预训练，通过开源OXE训练VLM变成Robotics VLM	Octo：在Open X-Embodiment数据集上进行预训练
	*不预训练的*Robotics VLM	没有针对VLM的二次预训练，而是直接机器人数据微调VLM变成Robotics VLM	字节RoboFlamingo：使用简单、少量的微调就可以把 VLM 变成 Robotics VLM

第二部分 Robotics VLM和VLA中的动作预测

2.1 Robotics VLM和VLA中的动作预测

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第四大块 Robotics VLM和VLA中的动作预测	专门的action head	基于LSTM	Robotics VLM：字节RoboFlamingo
		基于diffusion model	Robotics VLM：Octo
		基于diffusion model	VLA：TinyVLA(diffusion-based head)
		基于流匹配	VLA：π0 (流匹配微调VLM)
		基于Diffusion Transformer(DiT)	VLA：CogACT(相比Octo的头更大)
	基于下一个token预测技术预测动作token	对于离散化token动作表示，即指将机器人的每个动作维度分别离散化为 256 个箱子中的一个	VLA：RT-2、OpenVLA(相当于RT-2开源版)

第三部分借鉴大语言模型的发展之路

3.1 借鉴大语言模型的发展之路

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第五大块借鉴大语言模型的发展之路	预训练-微调模式中把模型搞大	需要架构、数据双双具备	RDT、π0
	把RLHF引入近具身	通过偏好对齐提升机器人策略的泛化能力	GRAPE
	把CoT引入具身	让具身模型学会逐步推理	ECoT
	让VLM充当机器人大脑，做顶层任务规划	机器人基础模型(相当于大脑)：用于整体任务规划机器人操控模型(相当于小脑)：用于精确控制	Figure 01、清华ViLA、CoPa
	让大模型来打辅助：推理、规划样样行	基于VLM模型GPT-4o和关系关键点约束	ReKep
		VLM解释人类演示视频，并为机器人生成任务计划、代码	纽约大学：VLM See, Robot Do
		结合「GPT4V的open-world vision能力」和重定向	OKAMI