当前位置：首页 > news >正文

【VLAs篇】06：从动作词元化视角谈VLA模型的综述

news 2025/7/26 14:51:01

文章目录

- - 执行摘要
  - 1. 引言
  - 2. 语言和视觉基础模型的演进
  - - 2.1. 语言基础模型
    - 2.2. 视觉基础模型
    - 2.3. 视觉-语言模型
    - 2.4. 作为下一前沿的具身VLA模型
  - 3. 动作词元概述
  - 4. 作为动作词元的语言描述
  - 5. 作为动作词元的代码 (Code as Action Tokens)
  - - 5.1. 基于代码的动作的演进 (Evolution of Code-Based Action)
    - 5.2. 脆弱性与挑战 (Brittleness and Challenges)
    - 5.3. 未来方向 (Future Directions)
  - 6. 作为动作词元的可供性 (Affordance as Action Tokens)
  - - 6.1. 关键点：精确的交互锚点
    - 6.2. 边界框：粗略的定位
    - 6.3. 分割掩码：像素级区域
    - 6.4. 可供性图：密集的空间场
    - 6.5. 讨论与未来方向 (Discussion and Future Directions)
  - 7. 作为动作词元的轨迹 (Trajectory as Action Tokens)
  - - 7.1. 轨迹概述
    - 7.2. 进展与关键论文 (Progress and Key Papers)
    - 7.3. 轨迹相关数据 (Trajectory-Related Data)
    - 7.4. 讨论与未来方向 (Discussion and Future Directions)
  - 8. 作为动作词元的目标状态 (Goal State as Action Tokens)
  - - 8.1. 作为目标状态的单帧图像 (Single-Frame Image as Goal State)
    - 8.2. 作为目标状态的多帧视频 (Multi-Frame Video as Goal State)
    - 8.3. 优势与局限性 (Advantages and Limitations of Goal State)
  - 9. 作为动作词元的潜层表示 (Latent Representation as Action Tokens)
  - - 9.1. 基于视觉的潜层表示
    - 9.2. 基于动作的潜层表示
    - 9.3. 基于目标的潜层表示
    - 9.4. 优势与局限性 (Advantages and Limitations of Latent Representation)
  - 10. 作为动作词元的原始动作 (Raw Action as Action Tokens)
  - - 10.1. 视觉-语言特征融合 (Vision-Language Feature Fusion)
    - 10.2. 基于Transformer的通用模型 (Transformer-Based Generalists)
    - 10.3. 自回归机器人VLA (Autoregressive Robot VLA)
  - 10.4. 视频预训练与机器人数据微调 (Video Pretraining and Robot Data Fine-Tuning)
  - 10.5. 基于扩散的动作分块 (Diffusion-Based Action Chunking)
  - 10.6. 异构数据集与统一动作空间 (Heterogeneous Datasets and Unified Action Space)
  - 10.7. 最新进展 (Recent Advancements)
  - 10.8. 结论与讨论 (Conclusions and Discussions)
  - 11. 作为动作词元的推理 (Reasoning as Action Tokens)
  - - 11.1. VLA模型中推理的演进 (Evolution of Reasoning in VLA Models)
    - 11.2. 关键实现与应用 (Key Implementations and Applications)
    - 11.3. 优势与局限性 (Advantages and Limitations of Reasoning as Action Tokens)
  - 12. 可扩展的数据源 (Scalable Data Sources)
  - - 12.1. 底层：网络数据与人类视频 (Bottom Layer: Web Data and Human Videos)
    - 12.2. 中间层：合成与模拟数据 (Middle Layer: Synthetic and Simulation Data)
    - 12.3. 顶层：真实世界机器人数据 (Top Layer: Real-World Robot Data)
  - 13. 总体讨论与未来方向 (General Discussions and Future Directions)
  - - 13.1. 动作词元与VLA模型的趋势 (Trends of Action Tokens and VLA Models)
    - 13.2. 从VLA模型到VLA智能体 (From VLA Models to VLA Agents)
    - 13.3. 从模仿学习到强化学习 (From Imitation Learning to Reinforcement Learning)
    - 13.4. 从受限硬件到全灵巧性与多模态 (From Restrictive Hardware to Full Dexterity and Modalities)
    - 13.5. 从能力为中心到安全感知 (From Capability-Centric to Safety-Aware)
    - 13.6. 从数据稀缺到数据可扩展性 (From Data Scarcity to Data Scalability)
  - 14. 结论 (Conclusion)

视觉和语言基础模型在多模态理解、推理和生成方面取得了显著进展，这激发了将此类智能扩展到物理世界的努力，推动了视觉-语言-行动（VLA）模型的蓬勃发展。尽管方法看似多样，我们观察到当前的VLA模型可以被统一在一个单一框架下：视觉和语言输入由一系列VLA模块处理，产生一个动作词元链，该链逐步编码更具落地性和可操作性的信息，最终生成可执行的动作。我们进一步确定，区分VLA模型的主要设计选择在于动作词元的构建方式，这些方式可分为语言描述、代码、可供性、轨迹、目标状态、潜层表示、原始动作和推理。然而，目前对动作词元仍缺乏全面的理解，这严重阻碍了VLA的有效发展并模糊了未来的方向。因此，本综述旨在从动作词元化的视角对现有的VLA研究进行分类和解读，提炼每种词元类型的优势与局限，并确定改进领域。通过这种系统的回顾和分析，我们为VLA模型的更广泛演进提供了一个综合的展望，强调了那些尚未充分探索但充满希望的方向，并为未来的研究提供指导，希望能将该领域向通用智能推进一步。

在这里插入图片描述

图 1 | 我们从动作词元化的角度提出了一个VLA的统一框架。动作词元泛指由VLA迭代生成的任何描述性指导，这些指导最终促成动作执行，其范畴超越了原始动作的概念。

执行摘要

VLA统一框架与动作词元分类法。 当前的VLA模型可以被统一在一个单一框架下：视觉和语言输入由一系列VLA模块处理，产生一个动作词元链，该链逐步编码更具落地性和可操作性的信息，最终生成可执行的动作。该框架的核心是动作词元，可分为语言描述、代码、可供性、轨迹、目标状态、潜层表示、原始动作和推理。VLA中的动作词元是语言模型（LLM）中语言词元的广义对应物。
动作词元趋势。 VLA模型的未来不在于单一主导的动作词元，而在于它们的策略性综合。表现力有限的语言动作不太可能成为主流，而语言规划对于任务分解仍然至关重要。代码是一个强大的替代方案，通过构建集成了感知和动作原语的综合函数库来解决复杂的长时序任务，其潜力将被释放。一个关键的协同作用正在于提供“做什么”的语义指导的可供性与定义精确“如何做”路径的轨迹之间形成。世界模型有力地支持了这种配对，它能够预测视觉目标状态，为这两种词元类型的生成提供依据。潜层表示前景广阔，但面临训练挑战。原始动作代表了端到端学习的理想状态，但受限于数据可用性。最后，推理作为一种元词元，用于增强所有其他词元，从纯粹基于语言的推理演变为基于动作词元、带有多模态反馈和自适应测试时计算的推理。
新兴的动作词元类型。 动作词元类型由基础模型的能力所塑造。更强的模型和新的模态（如音频、触觉）将催生新的词元类型和子类型。
VLA架构趋势。 高效的VLA模型可能会采用分层架构，顶层使用语言描述和代码来执行长时序规划和逻辑控制。在近期，底层预计将紧密集成目标状态的视频预测、轨迹的流建模以及可供性的3D交互预测，以形成中间运动表示，最终映射到原始动作。从长远来看，底层将向完全端到端的方式演进，直接从子任务级输入预测原始动作。推理根据需要在整个VLA模型中集成。
从模仿学习到强化学习。 通过引入强化学习，VLA模型可以克服模仿学习的局限，实现更像人类的试错和自引导探索。然而，现实世界的部署需要更高效的强化学习算法，以解决高重置成本和低交互效率的问题。此外，VLM可以自动化生成密集奖励函数，从而加速模型的训练和部署。
从VLA模型到VLA智能体。 应有意识地努力从VLA模型演进到VLA智能体，后者是主动系统，通过更广泛的记忆、探索、规划和反思的认知架构来增强感知-行动能力。这一转变也意味着从当前的线性处理架构过渡到更复杂、双向和图结构化的拓扑结构。
进步的三要素：模型、数据和硬件。 具身人工智能旨在处理物理世界的非结构化、开放式特性——这一宏伟目标要求模型、数据和硬件之间的协同。尽管如此，进展在很大程度上受限于受限的机器人平台和稀缺的高质量具身数据，迫使大多数研究局限于远离现实世界复杂性的简化实验室环境。因此，该领域仍处于起步阶段。实现鲁棒的通用智能需要模型、数据和硬件的共同演进，齐头并进，而非孤立发展。
安全性与对齐。 当前的VLA研究主要关注模型能力。未来的工作必须更加重视确保安全性与人类对齐。

1. 引言

近年来，人工智能（AI）在通用智能方面取得了显著进展。这一进展的核心是基础模型的出现——这些在互联网规模数据上训练的大型神经网络，通过捕捉其训练语料库中嵌入的多样化知识和模式，获得了广泛且可迁移的能力。作为一个突出的例子，大语言模型（LLM），如GPT-4和DeepSeek-R1，在自然语言理解、推理和生成方面表现出色，构成了许多基于文本应用的主干。与此同时，视觉基础模型（VFM），如CLIP、DINO和SAM，在广泛的视觉任务中显示出强大的泛化能力。在这些基础上，视觉-语言模型（VLM），以GPT-4o、Gemini 2.5 Pro和Qwen2.5-VL为例，整合了视觉和文本模态，以实现多模态处理和生成。总的来说，这些模型编码了广博的世界知识，在复杂任务上表现出强大的性能，并能泛化到新颖的场景——使它们具有高度的通用性和广泛的应用领域。

然而，尽管这些模型能力出众，但它们仍局限于数字世界，限制了它们对现实世界任务的影响。为了突破这一界限，研究人员开始探索如何利用基础模型的感知和认知能力来增强任务执行，从而将其智能延伸到物理世界。这一系列工作催生了视觉-语言-行动（VLA）模型的出现，我们将其正式定义为：基于至少一个大规模视觉或语言基础模型构建，根据视觉和语言输入生成动作的模型。例如，SayCan、PaLM-E和Code as Policies利用LLM和VLM的语言和代码生成能力，产生以自然语言或可执行代码表示的高级行动计划，然后由低级控制器解释和执行。其他工作则专注于从基础模型中提取可操作的知识，例如为任务相关物体生成可供性或预测场景级轨迹以指导下游控制。另一条研究路线则通过专门的预训练有目的地构建具身动作序列的潜层表示，并调整VLM来预测这些表示，然后由策略控制器解码和执行。此外，平行的努力也试图将视觉和语言领域观察到的缩放定律扩展到具身设置中，收集大规模的具身数据集，并在视觉-语言基础模型之上端到端地训练通用智能体。这些多样化的方法导致了VLA模型在机器人操作、导航和自动驾驶领域的迅速增殖，展示了在多任务学习、长时序任务完成和强大泛化方面的有希望的能力。通过利用基础模型的智能，它们为解决具身AI中长期存在的挑战（如数据稀缺和跨实体迁移性差）提供了新方向，并为能够通过开放词汇指令在开放世界物理环境中解决开放式任务的智能体铺平了道路。

VLA模型的快速进展、有希望的实证结果和日益增长的多样性，迫切需要一次及时而系统的综述，以指导未来的研究。在看似迥异的架构中存在的潜在共性进一步凸显了这种需求。我们观察到，现有的VLA模型通常可以抽象为一个统一的框架：视觉和语言输入经过一系列VLA模块的迭代处理，产生一个动作词元链，该链逐渐编码信息量和可操作性越来越强的指导，最终产生可执行的动作。形式上，我们将VLA模块定义为VLA模型中支持端到端梯度流的最大可微子网络，或非可微的功能单元（如运动规划）。如果多个神经组件相连并联合优化，它们被视为同一模块的一部分。遵循VLM中语言和图像词元的命名惯例，我们将VLA模块的输出称为动作词元。此外，我们也将VLA模块内语义上有意义的中间表示——例如通过专门预训练构建的潜层表示和目标图像——视为动作词元。图1展示了几个代表性VLA中VLA模块和动作词元的实例化，突出了如何用我们提出的框架统一地看待、解释和理解它们。从这个角度来看，VLA模型主要通过动作词元的构建和组织方式来区分。这些词元可分为八种类型：语言描述、代码、可供性、轨迹、目标状态、潜层表示、原始动作和推理。图2使用一个单一的具身任务将它们的常见形式可视化。至关重要的是，动作词元的设计几乎塑造了VLA模型的每个方面，包括基础模型的选择、数据要求、训练和推理效率、可解释性、可扩展性以及在不同任务和环境中的适用性。因此，动作词元化是VLA模型设计的核心，需要透彻的理解。

2. 语言和视觉基础模型的演进

本节首先回顾了语言基础模型（LFM，第2.1节）、视觉基础模型（VFM，第2.2节）和视觉-语言模型（VLM，第2.3节）演进中的主要进展，阐明了它们在能力、技术创新和方法论方面的进步。随后，我们讨论了该领域向具身AI的演进，分析了这个领域显著增加的复杂性，并将具身VLA确立为下一个前沿。

2.1. 语言基础模型

语言基础模型的出现很大程度上可以追溯到Transformer架构的引入，该架构利用多头自注意力和交叉注意力机制进行可扩展的序列建模，并采用编码器-解码器结构进行有效的序列到序列生成。基于此架构，BERT使用掩码语言建模和下一句预测目标，在大型未标记语料库上以自监督方式预训练了一个双向Transformer编码器，使模型能够学习到丰富的、上下文感知的表示，从而显著提高下游任务的性能。通用句子编码器同样采用Transformer编码器来学习可迁移的句子级编码。T5保留了编码器-解码器结构，将所有自然语言处理任务重新构建为统一的文本到文本格式，并在大规模的C4数据集上进行预训练。其预训练的编码器被广泛用于为开放词汇输入生成高质量的语言编码。

相比之下，GPT模型将所有NLP任务表述为下一词元预测，推动了仅解码器Transformer架构的使用，也称为因果或自回归Transformer。通过将模型大小扩展到1750亿参数并在互联网规模的语料库上进行预训练，GPT-3在语言理解和生成方面展示了令人印象深刻的能力。更值得注意的是，它表现出诸如上下文学习等涌现行为，模型仅凭推理时提供的少量示例即可执行任务。这表明模型架构、训练目标和数据源的可扩展性使得学习能够被有效地大规模应用，从而产生了能够超越特定任务系统的通用模型。这一范式转变得到了“痛苦的教训”的核心见解的支持，并标志着大语言模型（LLM）时代的开始。

为了指导LLM的高效扩展，研究人员提出了缩放定律，以描述模型大小、数据量、计算需求和预训练损失之间的可预测关系。这些见解为大规模训练期间的模型设计和资源分配的实际决策提供了信息。InstructGPT通过在指令遵循数据集上应用监督式微调（SFT），然后进行基于人类反馈的强化学习（RLHF），进一步推进了LLM与人类意图的对齐。此后，对齐技术得到了广泛研究，以确保大型AI模型在行为上符合安全考虑、人类偏好和价值观。

这些技术进步催生了如GPT-4和Claude等功能强大的商业LLM，它们在开放式对话、代码生成和思维链推理方面表现出色。通过一个名为AlphaEvolve的进化编码智能体进行协同，Gemini 2.0 Flash和Gemini 2.0 Pro共同在开放科学问题（包括矩阵乘法）上取得了显著突破。然而，由于它们的闭源性质和受限的基于API的访问，这些模型难以被检查、微调或集成到更广泛的研发工作流中。

在这里插入图片描述

图 2 | 单个具身任务中动作词元的可视化。给定相同的视觉和语言输入，不同的VLA模型将其编码为多样的动作词元，每种词元都传达了不同形式的可操作指导，并需要独特的词元生成和后处理策略。

在这里插入图片描述

图 3 | 基础模型、VLA模型和数据源的演进时间线。U形曲线反映了VLA的日益普及是如何得到基础模型和数据进展支持的。(注：图中的模型名称（如GPT-1, CLIP等）为专有名称，不作翻译。类别标签已在图中清晰标注，如语言、代码、可供性等。)

为了解决这些限制，许多开源的LLM被发布，例如Llama、Gemma和Mistral，模型大小从2B到70B参数不等，以适应不同的需求。在这些模型的基础上，参数高效微调（PEFT）技术，例如LoRA，能够使用显著更少的可训练参数和更低的计算成本进行特定任务的适应，使得在资源受限的环境中进行微调成为可能。

为了在不按比例增加计算量的情况下进一步扩展模型容量，混合专家（MoE）架构被引入LLM中，如Switch Transformer和Mixtral所示。MoE模型为每个输入仅激活一个专家子网络的子集，从而在保持高效推理的同时，允许显著更大的有效模型容量。

同时，为了解决Transformer架构的二次时间复杂度问题，研究人员提出了如Mamba等替代设计。Mamba用选择性状态空间更新取代了自注意力机制，实现了线性时间序列建模，同时在长上下文中保持了强大的性能。

另一条工作路线通过扩展测试时计算来提高推理能力。例如，OpenAI o1和DeepSeek-R1在推理过程中动态分配计算资源，以增强在复杂推理任务上的性能。特别是，DeepSeek-R1通过基于GRPO的大规模强化学习获得了这种能力。

最后，在优化LLM的训练和部署基础设施方面也取得了显著进展。一系列并行策略，包括数据并行、模型并行、流水线并行和张量并行，被积极用于在分布式计算环境中扩展训练。此外，还开发了模型量化、权重剪枝和推测解码等推理加速技术，以减少部署期间的延迟和计算开销。

这些进步使得LLM在知识、对话、代码和推理方面能力强大，同时也通过成熟的基础设施实现了高效的训练、部署和微调。它们不仅提高了LLM的可用性，还支持了视觉和多模态系统的发展，构成了具身VLA模型的关键构建模块。

2.2. 视觉基础模型

继Transformer在语言领域取得成功之后，计算机视觉界已开始用视觉Transformer（ViT）取代卷积神经网络，作为视觉模型的默认主干，以便在用大规模数据集训练时获得更好的性能。这种架构上的转变自然地将图像视为视觉词元的序列，这种表示格式允许视觉输入与文本输入类似地或联合地处理，从而促进了后续多模态模型中的跨模态对齐和融合。此外，LLM训练的可扩展性也激励研究人员探索视觉学习中可扩展的学习目标，以便在无需人工标注标签的情况下，在互联网规模的视觉数据上训练通用模型。作为早期且成功的尝试，CLIP利用自然语言监督进行图像表示学习，通过在4亿个图文对上进行对比损失训练。这使得CLIP能够学习到鲁棒且可泛化的图像表示，并显示出令人印象Vimpressive的零样本迁移能力。SigLIP通过将原始的softmax操作替换为sigmoid损失来改进CLIP，从而提高了训练效率并增强了性能。CLIP和SigLIP都已被广泛用作图像编码器，尤其是在需要多模态理解的场景中，因为它们与文本监督进行了联合训练。然而，依赖文本监督也构成了它们的局限性。由于文本描述通常是高级和抽象的，CLIP和SigLIP编码的图像特征可能缺乏复杂的像素级信息，这对于需要详细视觉理解的任务来说是不理想的。为了解决这个问题，DINO直接在精选的图像数据集上以自监督方式学习，获得了丰富的、通用的视觉特征，这些特征有助于细粒度的下游任务，如语义分割和深度估计。重要的是，其编码的特征可以匹配不同对象之间的相似区域，例如飞机和鸟的翅膀，显示出深入的语义理解和世界知识。Darcet等人通过在原始的[CLS]词元和补丁词元之外添加可学习的寄存器词元，对这些基于ViT的模型提出了一个简单而有效的改进，以去除特征图中原本存在的伪影并提高密集预测任务的性能。

基于这些开创性的图像编码工作，随后的研究开发了针对特定下游视觉任务的基础模型。Depth Anything有效地利用了从大规模未标记数据中自生成的伪标签，用于鲁棒的单目深度估计（MDE），而Depth Anything V2则利用了来自合成数据的真实标签来增强细粒度细节的保留。Segment Anything Model（SAM）作为一个可提示图像分割的基础模型，其后继者SAM 2将此能力扩展到了视频领域。这些模型可以根据点、边界框、掩码等形式的提示生成有效的分割掩码——在SAM的情况下还包括文本。Cutie是视频对象分割（VOS）的早期模型，在多样的视觉条件下表现出鲁棒性。SAMURAI通过整合运动建模和运动感知记忆选择，改进了SAM 2的视觉对象跟踪（VOT）性能，从而能更有效地处理快速运动、遮挡和拥挤场景。CoTracker通过引入一种用于长视频序列中密集点跟踪的transformer架构，补充了这一系列工作。

在开放词汇检测和定位领域，一系列模型逐步推进了区域级视觉-语言理解。GLIP通过将CLIP风格的对齐扩展到区域级别，在单一预训练框架内统一了检测和短语定位。Grounding DINO在此基础上构建，采用DETR风格的架构和对比性区域-文本对齐，在开放词汇定位任务上取得了强大性能。Grounding DINO 1.5扩展了模型大小和训练数据，改进了泛化能力并创造了新的SOTA结果。Grounded SAM进一步将Grounding DINO与SAM结合，以实现零样本的语言驱动分割。Grounded SAM 2将其扩展到视频中的定位和跟踪任何事物。

对于高保真度的图像和视频生成，扩散模型已成为主导方法。像GLIDE、DALL·E 2和Imagen这样的早期模型展示了文本引导图像合成的力量，而Stable Diffusion则以其广泛的应用实现了高效的、开放领域的生成。ControlNet引入了空间条件，以支持对结构和布局的细粒度控制。对于视频，像VideoCrafter和PVDM这样的模型将扩散扩展到时间域，用于文本到视频的合成。Sora通过采用流匹配并学习物理先验知识来进一步推进这一领域，生成具有强时间连贯性的长时间、高分辨率视频。最近，Veo 3展示了令人印象深刻的全模态生成，包括同步的音频和运动，推动了现实视频合成的边界。这些先进的图像和视频生成模型也被称为世界模型，因为它们编码了广博的物理常识和世界知识。与此同时，其他世界模型如Genie和Genie 2模拟了以动作序列为条件的未来视觉动态，实现了对环境演化随时间推移的准确和连贯的推演。

其他工作则专注于为与操作相关的感知任务开发基础模型。Foundation-Pose是一个统一的视觉基础模型，用于对新物体进行鲁棒和可泛化的6D姿态估计和跟踪，无论是否有CAD模型。HaMeR利用大规模数据和高容量transformer架构，实现了从单目输入中准确可靠地恢复手部网格，从而促进了从人类视频中提取手部姿态，并支持灵巧的操作任务。

这些在视觉基础模型方面的进步为视觉表示学习、视觉-语言对齐、常见视觉任务和生成建模提供了通用的解决方案。它们在广义视觉理解和生成方面的能力，极大地加速了多模态学习的进展，并为广泛的现实世界应用提供了支持。

2.3. 视觉-语言模型

视觉和语言基础模型的进步自然地推动了研究向多模态理解、推理和生成发展，导致了视觉-语言模型的兴起。作为早期的努力，BLIP引入了一种基于ViT和BERT的编码器-解码器（MED）多模态混合架构，用于统一的视觉-语言理解和生成，同时提出了一种数据自举策略，将字幕合成为高质量的图文对并过滤掉嘈杂的网络数据。为了更好地利用现成的单模态基础模型，BLIP-2提出了一种Q-Former连接器和两阶段训练策略，以有效地将冻结的预训练图像编码器与冻结的LLM对齐，以适度的可训练参数实现了强大的视觉-语言性能。

不同的架构范式也得到了探索。例如，Flamingo采用了一个Perceiver Resampler和门控交叉注意力层进行跨模态对齐。它还以一种与交错的视觉和文本序列天然兼容的方式处理输入，从而实现了强大的少样本学习能力。LLaVA代表了VLM架构发展的一个里程碑，它简单地通过一个线性投影将一个CLIP视觉编码器连接到Vicuna LLM，并在由GPT-4合成的数据上进行视觉指令微调。LLaVA-1.5通过采用更强的视觉编码器、用MLP替换线性投影并在更大的数据集上训练，对LLaVA进行了改进。

Qwen-VL家族是另一个卓越的工作系列。最初的Qwen-VL将Qwen-7B LLM与一个ViT通过位置感知的交叉注意力适配器结合起来。其为图像和边界框专门设计的输入输出接口，以及三阶段训练策略，使其能够进行交错的图文理解和视觉定位。其后继者Qwen2-VL通过2D RoPE和M-RoPE增强了时空编码，以支持不同分辨率和纵横比的图像和视频。它展示了强大的多语言能力，并在视觉-语言任务（如字幕、VQA和视频理解）上表现出有竞争力的性能。最近，Qwen2.5-VL将动态分辨率扩展到时间域，并将M-RoPE时间ID与绝对时间对齐，实现了更精细的时间理解。它在视觉编码器中加入了窗口注意力以提高推理效率。结合广泛的高质量数据策划，Qwen2.5-VL提供了增强的视觉识别、精确的物体定位、鲁棒的文档解析和长视频理解。

Karamcheti等人探索了VLM设计的关键决策，涉及图像预处理、架构和优化，得出结论：单阶段训练、融合DINOv2和SigLIP视觉主干、基础LLM以及与纯语言数据共同训练是有效的策略。基于这些见解，他们开发了Prismatic VLM，该模型在基准测试中持续优于LLaVA-1.5，并后来被用于OpenVLA。PaliGemma，一个基于SigLIP So400m和Gemma 2B构建的3B VLM，以可迁移性为重点进行开发，并随后被用作VLA模型π₀系列的主干。

目前能力前沿的是两个专有模型：GPT-4o和Gemini 2.5 Pro。两者在通用视觉-语言基准测试中都表现出领先的性能，并在现实世界应用中得到广泛采用。GPT-4o以其原生支持图像生成而著称，而Gemini 2.5 Pro则因其强大的推理能力而得到认可，这突显了现代VLM的快速进展和实用价值。

2.4. 作为下一前沿的具身VLA模型

基础模型的快速发展日益激发想象力，并推动着对通用人工智能（AGI）的追求。由于当前的基础模型主要在数字领域运行，代表着数字AI，研究人员自然地将他们的焦点转向具身AI，其目标是开发能够在物理世界中遵循人类指令的通用智能体。然而，我们强调，具身AI提出的挑战比数字AI要大胆得多，原因有几个。

从根本上说，具身AI必须解决的问题引入了数字AI中所没有的新形式的开放性和挑战。虽然困难的数字案例可能涉及分布外（OOD）或对抗性输入，但物理世界本质上是非结构化的，即使是常规设置也可能极具挑战性。自由流动的人类对话、无意的干预、倒下的椅子、杂乱的房间和遮挡都是常见的例子，更不用说更困难的情况了。一个可比较且或许更熟悉的问题，我们在这篇论文中也将其视为具身AI的一部分，那就是自动驾驶。虽然自动驾驶已经极其困难，但物理世界中的通用具身智能必须处理数量级更多的情况，导致数量级更大的挑战和困难。这对模型和数据都提出了巨大的要求，以支持鲁棒的具身AI。

此外，一个关键的认识是，具身AI还涉及到对机器人硬件的要求，而数字AI则没有。要实现通用的具身智能，硬件平台必须具备执行一般任务所需的灵巧性和鲁棒性，而这一水平目前远未达到。代表性的差距包括：与人类水平相去甚远的灵巧手和机械臂，对夹爪的严重依赖，各种实体（embodiments）的多样性和隔离性，以及缺乏灵敏、全覆盖的触觉传感器。

在这里插入图片描述

图 4 | 显示关键AI领域之间相互关系的维恩图。VLA模型与数字AI、硬件和机器人技术相交，代表了具身AI的核心子领域和迈向AGI的关键领域。

由于硬件的完善不可能在短期内实现，一个合理的期望是模型、数据和硬件将协同发展，最终实现通用智能。本综述的范围主要集中在模型和数据方面，但我们也会向读者介绍硬件方面的挑战，这些挑战通常是模型开发的重要考虑因素。

鉴于具身AI对通用视觉和语言能力的需求，一个自然的策略是建立在基础模型之上，并赋予它们行动能力。这个方向催生了具身VLA模型，现在是研究的核心课题。VLA位于数字AI、机器人技术和硬件的交汇处，构成了具身AI的核心子领域和追求AGI的关键领域（图4）。迄今为止提出的数百篇VLA论文展示了一个迅速扩展的领域（图3），显示出智能和泛化的早期但有限的迹象。本次综述从动作词元化的角度系统地回顾和分析了这些论文，以勾勒出研究的全貌。尽管最近取得了进展，但大多数评估仍局限于简化的实验室环境——主要是基于夹爪的操作——因此远未达到日常环境中通用具身智能体的要求。因此，该领域尚处于起步阶段，仍需取得重大进展。因此，具身VLA模型的持续发展必将成为可预见未来的下一个研究前沿。

3. 动作词元概述

VLA模型的研究重点是利用基础模型，处理视觉和语言输入以生成动作输出。我们观察到，在设计VLA架构和制定训练策略时，VLA模块和动作词元的概念自然而然地出现了。为了将原始感知映射到动作，VLA模型必须有效地理解场景和指令，将指令在场景中进行定位，规划当前子任务，预测后续运动，并生成可执行的动作。具身任务的复杂性和通用性进一步要求这些能力的切换、重复和递归。为了促进与任务相关的信息流动和提炼，VLA将这些能力委托给不同的模块，管理它们各自的生成内容，并逻辑地将这些模块及其生成内容连接起来以导出最终动作。因此，生成格式的设计以及这些模块的训练策略是VLA的核心。本综述从这个角度回顾了现有的研究。

我们将VLA中的最大可微子网络和非可微功能单元称为“VLA模块”，将其生成物称为“动作词元”。此外，VLA模块内语义上有意义的中间生成物也被视为“动作词元”。“动作词元”这个名称不仅表示这些生成物封装了与动作相关的信息，而且与LLM中“语言词元”的命名惯例保持一致。事实上，VLA中的动作词元是LLM中语言词元的广义对应物。

为了进一步阐明这些概念，图1突出显示了几个代表性的例子。对于当前环境下的给定语言指令，Hi Robot 使用一个微调过的PaliGemma模型来预测自然语言的下一个子任务。随后，一个以类似于π₀的方式训练的VLA模型生成低级机器人指令。在这种情况下，微调的PaliGemma和定制的π₀都构成VLA模块，而中间的语言规划和最终的原始动作则作为动作词元。另一个例子是VoxPoser，它也首先使用LLM将语言指令分解为子任务。然后，它使用LLM和VLM根据当前场景为解决每个子任务生成一个可供性图，并最终调用一个运动规划模块将可供性图转换为原始动作。在这里，LLM、VLM和运动规划算法都作为VLA模块，而语言规划、可供性图和原始动作则代表相应的动作词元。

其他VLA模型也可以通过识别其组成的VLA模块和动作词元，从而根据这个框架进行分析。基于对现有文献的广泛调查，我们观察到大多数VLA模型都遵循一个统一的抽象框架，如图1所示：视觉和语言输入被一系列VLA模块迭代处理，产生一个动作词元链，该链逐步编码更具落地性和可操作性的指导，最终产生可执行的动作。这种抽象提供了一个统一的视角，通过它可以解释和比较多样的VLA架构。

由于VLA利用基础模型来开发VLA模块和动作词元，这些基础模型固有的多样性导致了各种动作词元格式的出现。现有的VLA研究主要调查了八种主要的动作词元类型：语言描述、代码、可供性、轨迹、目标状态、潜层表示、原始动作和推理。在图2中，我们使用一个示例性任务“准备茶”来可视化这些动作词元的常见格式。这种可视化展示了，对于给定的语言指令和观察，每种类型的动作词元都以独特的方式编码与任务相关的指导。下面提供了这些动作词元的正式定义。

(1) 语言描述 (第4节): 一种自然语言表达，描述了预期的动作序列，范围从高级和抽象的语言规划到低级和具体的语言动作。
(2) 代码 (第5节): 一个可执行的代码片段或伪代码，它要么构成一个完整的机器人程序，要么指定低级的原子操作。
(3) 可供性 (第6节): 一种空间定位的表示，捕捉了对象的任务特定和交互相关的属性，通常表示为关键点、边界框、分割掩码或可供性图。
(4) 轨迹 (第7节): 一个时间上有序的空间状态序列，捕捉了对象、末端执行器或场景的动态演变。
(5) 目标状态 (第8节): 一个预测的未来观察——例如图像、点云或视频片段——它在视觉上代表了预期动作序列的期望结果，作为规划和执行的中间目标。
(6) 潜层表示 (第9节): 一个有目的地预训练的潜层向量序列，它在一个时间间隔内编码与动作相关的信息，通常从大规模数据集中提取。
(7) 原始动作 (第10节): 一个或多个可由机器人直接执行的低级控制命令。
(8) 推理 (第11节): 明确描述导致特定动作词元的决策过程的自然语言表达。

在接下来的章节中，我们将系统地介绍按每种动作词元类型分类的VLA模型。对于每个类别，我们讨论其采用的动机，回顾相关文献，并分析其优点和局限性，同时强调未来的研究方向。每个部分还包括一个总结所调查工作的表格，检查各个动作词元在多个相关维度上的异同。特别是，“前置模块”和“后置模块”列分别指代动作词元之前和之后的VLA模块的设计策略，通常反映了如何生成和转换词元以实现有效VLA模型的关键创新和深思熟虑的设计选择。此外，表1总结了每种动作词元类型最显著的优点、局限性和值得注意的实证结果，以便于在各个类别之间进行比较、理解和洞察。

表1 | 各类动作词元的主要优点、局限性和实证结果概述

动作词元	优点	局限性	著名的实证成就
语言描述	语言规划：LLM和VLM支持良好；丰富的协同训练数据；长时程规划所必需。语言动作：多任务数据共享。	语言规划：表达能力不完美（模糊；难以描述灵巧操作）；高延迟。语言动作：同上。	语言规划: 铺床 (πₒ.₅); 做三明治 (Hi Robot) 语言动作: 从分配器中抽出纸巾 (RT-H)
代码	LLM支持良好；规划和控制逻辑清晰；丰富的第三方库。	过度依赖预定义的API；运行时执行脆弱。	恢复重排 (Instruct2Act)
可供性	关键点：精确的交互目标。边界框：VLM支持良好；对于实例级定位高效。分割掩码：捕捉精细轮廓、几何形状，用于功能区域定位。可供性图：密集、以交互为中心、全场景。	未来工作应更好地捕捉3D空间结构；缺乏对演化中的可供性预测的时间建模；对视觉噪声敏感，包括遮挡和运动伪影。	关键点: 倒茶 (ReKep) 边界框: 在杂乱场景中进行灵巧抓取 (DexGraspVLA) 分割掩码: 在开放世界中做决策 (ROCKET-1) 可供性图: 可变形物体操作 (ManiFoundation)
轨迹	可从非领域内的人类视频中训练；跨任务泛化。	3D表达能力有限；VLM支持有限；语义基础不足。	用抹布清洁桌子 (RT-Trajectory)
目标状态	基础模型支持良好；通过事后重标和无动作视频利用实现高数据可扩展性；任务特异性。	难以生成高质量、一致的目标状态；高延迟。	使用移液管转移液体 (VPP)
潜层表示	通过利用无动作人类视频和跨实体数据实现高数据可扩展性；表达潜力强（结构紧凑、隐式语义、多模态集成）。	不可解释；未来工作应提高潜空间的粒度、全面性和任务中心对齐。	折叠短裤 (GO-1); 在《我的世界》中挖钻石 (OmniJARVIS)
原始动作	人类知识最少；动作词元注释最少；与VLM相似的训练策略和扩展潜力；高效的微调。	数据稀缺；数据收集困难；高延迟；跨实体泛化能力差。	折叠衣物 (πₒ); 点燃火柴并点燃蜡烛 (Real-Time Chunking)
推理	增强目标动作词元的生成；复杂问题解决。	高延迟；未来工作应发展灵活的推理范式。	自动驾驶 (DriveVLM)

4. 作为动作词元的语言描述

LLM和VLM的进步自然地推动了在VLA模型中使用语言描述作为动作词元，从而直接利用它们在语言理解、生成、推理和规划方面的优势。此外，通过自然语言来表示动作，与人类概念化和沟通计划的方式非常契合，特别是对于复杂和长时程的任务。人类倾向于将高级指令分解为中间的、语义上有意义的子步骤，并在必要时进一步细化为精确的动作指令，而不是直接执行原始动作。这种任务的层级结构使得人们能够灵活地适应不同情境和控制级别。受此启发，VLA模型中这些基于语言的词元也被设计为具有不同的抽象层次，大致可分为两类。在顶层，语言规划 通常用单个短语描述整个子任务或高级目标。例如“拿起杯子”和“把杯子放在桌子上”传达了机器人应该完成什么，作为可以分配给技能或策略的语义锚点。相比之下，在更精细的层面上，语言动作 指定了更接近电机控制的低级物理动作，使用诸如“向前移动手臂”和“闭合夹爪”之类的表达，详细说明了特定动作的执行。这种抽象的光谱提供了一个概念框架，使VLA模型能够在不同粒度级别上组织、解释和执行具身任务，并有潜力支持更像人类的层级规划。受这些优势的启发，越来越多的工作探索了将语言描述作为动作词元纳入VLA，导致了任务分解、动作排序和执行管理的多样化策略。我们在表2中列出了它们。

表2 | 使用语言描述作为动作词元的VLA研究概览

格式	论文	模型	前置模块-训练策略	前置模块-生成策略	动作词元限制性	后置模块-模型	后置模块-训练策略	任务	实体
语言规划	Language Planner	Codex-12B, 等	冻结	LLM生成规划，ROBERTa在技能集中寻找最佳匹配	预定义	N/A	N/A	VirtualHome	N/A
	Socratic Models	VILD, LLM	冻结	VLM检测物体，LLM生成独立步骤	预定义	CLIPort启发式策略	已训练	桌面重排(仿真)	UR5带夹爪(仿真)
	SayCan	PaLM-540B	冻结	选择LLM和可供性函数综合评分最高的原子技能	预定义	BC-Z	在80K演示上训练	移动操作(办公室厨房)	Everyday Robots
	Inner Monologue	PaLM-540B, 等	冻结	LLM利用文本反馈生成和更新规划，使用少样本提示	预定义	CLIPort, BC-Z	CLIPort在20K演示上训练；BC-Z在80K演示上训练	桌面重排(仿真/真实)；移动操作	UR5e带夹爪；Everyday Robots
	PaLM-E	PaLM-E-562B	在VQA、网络文本、操作数据集上训练	VLM生成规划	自由形式	交互式语言策略，RT-1	按原始论文训练	TAMP；Language-Table；移动操作	xArm6带夹爪；Everyday Robots
	EmbodiedGPT	EmbodiedGPT	在EgoCOT上通过前缀微调训练	VLM生成子目标序列	自由形式	MLP策略网络	每任务10/25/50个演示	Meta-World；Franka Kitchen	Franka Panda (仿真)
	DoReMi	Vicuna-13B, BLIP-2	LLM冻结，BLIP-2用LoRA微调	LLM通过少样本上下文学习生成规划和约束	预定义	CLIPort, Transporter Nets等	通过模仿学习或RL训练	桌面操作；人形机器人操作	UR5e带夹爪；Humanoid
	ViLa	GPT-4V	N/A	VLM通过CoT推理以零样本方式生成规划	预定义	脚本化，RL，BC策略	已训练	桌面操作(仿真/真实)	Franka Panda
	3D-VLA	BLIP-2, FlanT5XL	在包含2M场景-语言-动作对的3D具身指令微调数据集上微调	VLM生成带交互式词元的规划	自由形式	Stable Diffusion v1.4, Point-E	已微调	RLBench和CALVIN中的长时程任务	Franka Panda
	RoboMamba	CLIP, Mamba	对齐预训练，指令协同训练	VLM生成规划	自由形式	简单策略头	在10K末端执行器姿态预测上训练	视觉-语言任务，姿态预测	Franka Panda
	ReplanVLM	GPT-4V	N/A	VLM生成任务规划，另外两个VLM检测内外错误	自由形式	未报告	未报告	桌面操作	JAKA Zu 7臂带夹爪
	BUMBLE	GPT-4o	N/A	VLM预测子任务并选择参数化技能	预定义	未报告	未报告	楼宇级长时程移动操作	未报告
	ReflectVLM	LLaVA-1.5-13B	在演示数据上训练	VLM提出规划，扩散模型构想未来图像，VLM反思规划	预定义	基于规则的脚本控制器	N/A	操作任务(1K互锁对象)	Franka Panda
语言动作	Hi Robot	PaliGemma-3B	在分段为短技能的遥操作演示和合成提示上训练	VLM生成规划	自由形式	πₒ	在遥操作演示上训练	餐桌清理，做三明治，购物	UR5e带夹爪；ARX带夹爪和移动底盘
	πₒ.₅	PaliGemma-3B	在机器人数据、高级子任务预测数据和多模态网络数据上训练	VLM生成规划	自由形式	πₒ.₅	在机器人数据、高级子任务预测数据和多模态网络数据上训练	家庭任务(真实世界)	两个移动操作平台
	RT-H	PaLI-X 55B	在用语言动作标记的厨房和多样化数据集上训练	VLM预测细粒度语言动作短语	自由形式	PaLI-X 55B	在用语言动作标记的厨房和多样化数据集上训练	桌面操作	未报告
	NaVILA	ViLa	在2K YouTube第一人称漫游视频上训练	VLM生成带空间信息的中级动作	自由形式	视觉运动策略	通过PPO训练	VLN-CE-Isaac；导航(25个任务，真实世界)	Unitree Go2；Unitree H1；Booster T1

“N/A”表示不适用；“NR”表示未报告。

5. 作为动作词元的代码 (Code as Action Tokens)

VLA模型的一个关键挑战在于规划和控制复杂、长时程的操作任务，这些任务需要结构化推理和对动态环境的适应能力。传统的动作表示，如离散信号或直接的语言命令，通常缺乏应对这种复杂性所需的表达能力。为此，基于代码的动作词元作为一种强大的替代方案应运而生。这些表示由可执行的代码片段或伪代码组成，其中包含了条件和循环等控制结构。这种格式允许通过机器人控制API直接执行，使模型能够生成具有明确逻辑的模块化行为。它有效地支持了层级规划和反应式控制。

代码相比其他动作格式具有明显的优势。它提供了清晰的逻辑结构，并能利用丰富的第三方库。此外，它在高级指令和低级机器人原语之间建立了一座透明且可验证的桥梁。LLM的最新进展使得从自然语言和视觉输入合成与任务相关的代码成为可能。这一范式催生了大量研究，探索将代码作为机器人技术的结构化和可解释的动作表示。表3总结了使用基于代码的动作词元的代表性VLA模型。

5.1. 基于代码的动作的演进 (Evolution of Code-Based Action)

两项开创性工作引领了VLA研究中基于代码的动作表示的使用：Code as Policies 和 ProgPrompt。Code as Policies 利用像GPT-3或Codex这样的LLM，将语言指令映射到Python代码片段。这个生成的代码处理感知输入，参数化低级机器人API，并在机器人平台上执行任务。一个关键能力是它与NumPy等第三方库的自然集成，以执行复杂的空间推理。同时，该系统通过从感知模块进行自举，也能有效地泛化到新的对象。这种模块化使其策略代码能够通过新的指令和API适应新的行为。在此基础上，ProgPrompt 将代码生成过程扩展到了一个有限状态机（FSM）框架。具体来说，ProgPrompt在提示中采用程序化结构来指导LLM，集成了用于指定机器人能力的import声明、用于搭建高级推理框架的自然语言注释，以及用于验证执行状态的断言。FSM框架协调了整个任务的执行，它定义了明确的子任务转换，并使用一个反应式触发机制，使系统能够适应动态的环境变化。

近期的研究通过整合常识推理和改进生成代码在物理世界中的落地性，扩展了基于代码的动作词元。例如，ChatGPT for Robotics 探索了多样的提示策略，如自由形式对话、代码提示、XML标签和闭环推理，以更好地解析人类意图。为了生成更有效和更具落地性的代码，它强调了提示中描述性API名称和清晰任务规范的重要性。至关重要的是，生成的代码会经过一个“人在环路”的验证过程，其中关于其质量和安全性的反馈被用于迭代改进，然后才最终部署到机器人上。为了解决Code as Policies 中的感知局限，Instruct2Act 用专门的多模态基础模型来增强编码LLM，用于精确的对象分割和开放词汇分类。通过将感知和语义理解外包出去，Instruct2Act有效地将高级语言指令落地到精确、可执行的策略代码中。为了进一步推进多模态集成，RoboCodeX 专注于融合来自不同来源的信息，例如各种场景数据集、对象数据集和程序性任务描述。它引入了一种新颖的思维树框架，通过结合视觉、语言和物理线索来合**成行为。通过在一个特制的多模态数据集上进行微调，模型的推理能力得到增强，从而产生更准确和可泛化的机器人动作。

基于代码的动作词元对于高级规划和任务泛化也同样有效。例如，为了处理长时程任务，Text2Motion 利用GPT-3生成定义任务成功的有效目标状态，为规划提供了清晰的终止标准。为了达到这个目标，该框架采用了一个混合规划器，它结合了用于效率的发射式搜索规划和用于可靠回退的贪婪搜索规划。为了解决此类生成计划的实际部署问题，RoboScript 引入了一个统一的代码生成流水线，该流水线标准化了输入并集成了多样的感知和运动规划工具。这种设计显著增强了代码在不同机器人间的灵活性和适应性。为了进一步拓展泛化的边界，Chain-of-Modality（非VLA模型）引入了一种新颖的提示策略，引导VLM对多模态人类演示（例如，肌肉或音频信号）进行推理，以生成机器人可执行的代码。

5.2. 脆弱性与挑战 (Brittleness and Challenges)

尽管有其优势，但基于代码的动作词元面临几个重大的实践限制。它们的表达能力受到预定义感知和控制API库能力的内在约束。当机器人遇到高度动态、模糊或前所未见的环境时，预设的API可能不足以准确捕捉或表达所需的新颖行为。因此，系统在复杂、开放世界环境中的适应性和探索能力是有限的。例如，如果一个API没有为“湿滑的表面”或“易碎的物体”等环境特征提供抽象，那么即使是完美编写的代码也难以生成应对这些场景所需的细致动作。

这种对刚性符号表示的依赖也导致了执行的脆弱性。机器人策略不仅容易受到LLM内部生成错误（例如，产生逻辑上不一致或低效的代码）的影响；更关键的是，当真实世界的环境状态违反了API的预设前提条件时，它们就会失败。这是符号接地问题的核心体现——代码中的抽象符号无法可靠地映射到复杂的真实世界感知。例如，一段控制机械臂抓取的代码可能假设物体表面总是干燥平坦的。如果实际物体是湿的或形状不规则，那么这段在语法上完全正确的代码可能会导致抓取失败、物体损坏，甚至硬件损坏。这种固有的脆弱性直接转化为重大的安全风险，因为看似无害的代码命令可能在不可预见的情况下引发严重事故。

5.3. 未来方向 (Future Directions)

未来工作的一个有希望的方向是开发全面的API函数库，以完全释放基于代码的动作词元的潜力。这样的框架应该集成一套丰富的模块化功能，包括多模态感知API（例如，对象检测和跟踪）、推理模块（例如，空间关系分析）和鲁棒的动作原语。通过提供一个结构化且可靠的接口，这个框架将使VLM能够充当高级的协调者，生成可执行的代码来组合这些原语，从而解决现实世界中复杂的、长时程的任务。

第二个未来方向是在整个代码生命周期中集成形式化验证，以增强鲁棒性。这包括验证API库的一致性和安全性，以及开发动态验证LLM生成代码的方法。逻辑推理和约束满足可以指导安全的代码生成，而静态分析和模型检查可以在部署前捕捉错误或证明安全性。最后，运行时监控确保API的前提条件得到满足，在出现异常时触发安全关停或恢复。

另一个前沿是利用代码的可解释性来实现有效的人机协作。与黑箱模型不同，代码的透明性让人类能够理解并干预机器人的逻辑。这支持了两个关键范式：交互式调试，其中失败可以被实时追踪和修复；以及协作式改进，其中人类迭代地指导程序改进。这种“人在环路”的系统对于开发不仅能干，而且值得信赖和可控的机器人智能体至关重要。

表3 | 使用代码作为动作词元的VLA研究概览

论文	前置模块-模型	前置模块-训练细节	后置模块-模型	后置模块-训练细节	任务	实体
Code as Policies	Codex (code-davinci-002)	API调用	VILD, MDETR, 阻抗控制器, 基于轨迹的控制器	VILD, MDETR冻结	绘制形状, 拾取-放置; 移动操作	UR5e带Robotiq 2F85夹爪 (RealSense D435); Everyday Robots
ProgPrompt	GPT-3	API调用	ViLD, Contact-GraspNet, SceneCollisionNet, 运动规划(MPPI)	Contact-GraspNet, SceneCollisionNet, ViLD冻结	VirtualHome(仿真); 拾取-放置, 分类物体(真实)	Franka Panda
ChatGPT for Robotics	ChatGPT	API调用	机器人函数库, YOLOv8	YOLOv8冻结	导航, 物体操作, AirSim工业巡检, AirSim避障(仿真); 无人机飞行(真实)	未报告
Text2Motion	GPT-3 (text-davinci-003)	API调用	技能库, 几何可行性规划器	N/A	拾取-放置(仿真)	Franka Panda (Kinect V2)
Instruct2Act	GPT-3 (text-davinci-003)	API调用	SAM, CLIP	冻结	视觉操作; 场景理解; 旋转, 重排; 恢复重排, 拾取-恢复	未报告
RoboScript	GPT-3.5-turbo/ GPT-4/Gemini Pro	API调用	GLIP, AnyGrasp, GAMMA, GIGA, 运动规划(RRT)	GLIP, AnyGrasp, GAMMA, GIGA冻结	拾取-放置, 插入抽屉	Franka Panda, UR5带Robotiq 2F-85夹爪 (RGB-D相机)
RoboCodeX	RoboCodeX	在自收集数据集上预训练和微调	AnyGrasp, GAMMA, 运动规划, ROS	AnyGrasp, GAMMA冻结	拾取-放置, 插入抽屉	UR5带夹爪, Franka Panda (3个RGB-D相机)

“N/A”表示不适用；“NR”表示未报告。

6. 作为动作词元的可供性 (Affordance as Action Tokens)

在VLA范式中，可供性充当了结构化和空间定位的动作词元，它桥接了视觉感知和物理交互。近期的研究表明，可供性表示利用了视觉-语言基础模型的空间推理能力，以识别可操作区域并基于多模态输入评估物理可行性。通过抽象掉特定于实体的控制机制，可供性增强了跨平台的泛化能力，使得相同的高级指令可以在各种机器人系统上执行。此外，它们明确地编码了与任务相关的交互信息，例如抓握点或可操作的表面，这使得它们对于现实世界中以对象为中心的操作特别有效。

可供性可以以多种形式表达，每种形式都提供了关于机器人如何与环境中的对象交互的不同见解。近期的研究主要探索了关键点、边界框、分割掩码和可供性图。我们在表4中总结了这些工作。对于像厨房清理这样的接触丰富的任务，表示的选择至关重要。关键点提供了精确的目标，非常适合精确定位碗的边缘以进行抓取或按下洗碗机的小按钮。边界框提供了一种更简单、粗略的定位，足以用于一般的对象选择。对于需要精细交互的操作，例如擦拭碗的不规则内部，分割掩码更优越，因为它们能捕捉对象的精确轮廓。可供性图提供了对交互可能性的密集、场景级别的理解。它们同时突出了所有可抓取或可擦拭的区域，从而支持跨多个对象的更复杂的空间推理。最终，可供性表示的选择涉及到交互精度、计算复杂度和任务需求之间的根本权衡。在接下来的部分，我们将详细分析每种表示的特性。

6.1. 关键点：精确的交互锚点

关键点提供了对交互目标的紧凑而精确的表示，例如对象把手或接触边缘。它们通常被定义为 k = [x, d]，其中 x, d ∈ R³，x 表示空间接触位置，d 表示交互方向。得益于VLM 精确的空间定位能力，一些早期的VLA模型采用关键点将视觉-语言感知与控制级执行直接联系起来。KITE 通过预测与语义对象部分对应的任务相关关键点，将语言指令在视觉场景中进行定位。这些关键点随后被用于条件化技能以执行低级动作。RoboPoint 在此基础上构建，通过构建一个合成数据集来对VLM进行空间推理的指令微调，使得模型能够识别满足关系约束的点，然后通过运动规划执行。CoPa 通过将来自VLM的常识先验知识融入一个从粗到精的定位流程，进一步增强了空间定位，该流程首先识别可能的交互区域，然后将其细化为可操作的空间约束，用于后续的运动规划。为了确保控制的鲁棒性，KUDA 引入了一个两级闭环控制机制，以促进基于模型的鲁棒规划。具体来说，它使用VLM生成包含关键点及其相应目标位置的任务规范。这些规范随后被构建为成本函数，指导一个两级控制器的优化。此外，该系统采用了一个基于检索的提示库，从而加强了少样本定位和系统鲁棒性。

除了直接定位，关键点还被用于结构化框架中，这些框架融合了任务语义、关系约束和跨领域知识。RAM 通过构建一个由多样化非领域内数据集组成的可供性记忆库，解决了领域内数据收集的成本问题。它使用VFM进行语言条件的演示检索，通过概率提升将2D关键点转换到3D，从而实现了在新环境中的零样本操作。ReKep 将操作形式化为一个关于被跟踪关键点的约束优化问题，其中任务目标被编码为对机器人和对象施加几何和关系成本的Python函数。一个层级求解器规划SE(3)子目标，并通过后退水平控制优化动作，支持具有高时空复杂度的双臂和人机交互。OmniManip 引入了一个以对象为中心的规范化过程，将对象映射到一个功能空间。在这个结构化空间内，关键点作为推理原语，VLM在其上预测空间约束和交互目标。为了减轻幻觉和执行漂移，它集成了一个自校正循环，该循环渲染结果并重新采样交互点，而一个双层控制器则处理高级规划和精细的姿态跟踪。

一个新兴的方向是将静态关键点扩展为时间序列，有效地将其转化为基于轨迹的动作词元。这一演进使得系统不仅能表示在哪里行动，还能表示行动如何随时间展开。Magma 和 VidBot 都预测以任务指令和视觉观察为条件的关节点位置序列，捕捉以对象为中心的操纵的精细时间动态。通过对时间上定位的关键点进行建模，这些系统支持了更长时程的推理，并实现了时间上一致的动作规划。这种时间扩展增强了表达能力和规划能力，为空间可供性和轨迹级表示之间提供了一座自然的桥梁。

6.2. 边界框：粗略的定位

边界框为视觉场景中的实例级定位提供了一种粗略但高效的表示。一个2D边界框通常定义为 B = {(xtl, ytl), (xbr, ybr)}，标记了图像平面上的左上角和右下角。在3D中，边界框通常由八个空间角点 {(xi, yi, zi)|i ∈ {1, …, 8}} 表示，编码了对象在场景中的物理范围。虽然这些表示缺乏精细的几何细节，但它们提供了鲁棒性和计算上的简洁性。强大的开放词汇检测器（例如，Grounding DINO, Detic, and OWL-ViT）和VLM（例如，Qwen2.5-VL）的出现，通过有效地根据自由形式的语言查询将对象定位为边界框，在视觉理解和物理操作之间建立了强大的联系。

一些VLA模型利用边界框将语言指令落地到以对象为中心的视觉输入中。DexGraspVLA 通过定位目标对象的领域不变边界框，来落地领域变化的指代表达式，然后将其转换为分割掩码。这些掩码使用Cutie 进行时间跟踪，从而在整个抓取过程中实现了时间上一致的视觉定位。这个流程展示了近期工作的一个更广泛的趋势：使用边界框作为模块化接口，连接指代性语言和空间定位的对象表示。边界框作为一种高效的感知抽象，简化了从语言到可操作视觉输入的映射，从而能够在无需密集监督的情况下，在开放词汇设置中进行任务规范。

除了通过语言指令进行对象定位，边界框还可以支持交互推理和下游动作生成。Wake等人使用GPT-4V处理人类演示视频，通过空间邻近性整合手和对象的边界框来检测抓取和释放事件。这些时空线索构成了提取与可供性相关信息的基础，包括抓取策略和路点轨迹，然后被转化为机器人可执行的代码。A3VLM 在这个方向上进行了扩展，使用一个由3D边界框、运动轴和语义标签组成的结构化三元组来建模对象关节运动。为了能够预测这个三元组，它引入了一个对象级关节运动标注的数据集，并用一个投影层对Llama-2-7B模型进行了微调。至关重要的是，这种与机器人无关的表示可以通过简单的动作原语直接转化为低级机器人动作，从而实现了跨不同平台的泛化和显著的操作性能提升。

6.3. 分割掩码：像素级区域

分割掩码提供了高分辨率的空间表示，能够捕捉精细的对象轮廓和部件级几何形状，从而能够精确地定位功能性区域，如可擦拭的表面或可抓取的区域。形式上定义为二进制矩阵 M ∈ {0,1}H×W，掩码提供了超越如边界框等更粗糙抽象的像素级细节。随着像SAM和Florence-2这样的基础模型的出现，语言条件分割的质量和泛化能力得到了显著提升。近期的VLA模型利用这些能力从文本指令中提取与可供性对齐的对象区域。MOO 利用OWL-ViT提取对象表示，这些表示与文本指令融合，为开放世界操作中的策略学习提供信息。SoFar 使用SAM分割对象掩码，然后用它们构建以对象为中心的点云和方向感知的场景图。这些表示引导PointSO预测功能性方向（例如，“把手朝上”）并支持结构化的空间推理。RoboDexVLM 采用了一个从粗到精的优化流程来获得高质量的掩码，这些掩码用于通过AnyGrasp 预测末端执行器的抓取姿态。总的来说，这些方法证明了分割掩码提供了结构化的、与任务对齐的表示，在接触丰富的操作任务中桥接了感知和控制。一个更新的方向是探索使用分割掩码作为时间上锚定的交互接口。ROCKET-1 引入了一个层级系统，该系统利用通过SAM 2 提取和跟踪的分割序列作为持久的视觉提示。这些时间上定位的掩码支持在动态环境中的高级推理和连贯的动作选择，从而实现了在没有固定任务模板的情况下进行鲁棒的对象操作。

6.4. 可供性图：密集的空间场

可供性图将场景表示为空间场，为特定动作给每个区域分配一个分级的适用性分数，反映了先前的交互意识。通常它被形式化为 A ∈ RH×W，其中H和W表示空间分辨率。这些图编码了对象几何、表面拓扑和任务特定的先验知识，从而实现了密集的、指令条件的交互推理。CLIPort 采用了一个双流网络来融合语义和空间特征以进行可供性预测，引导精确的拾取-放置动作。IGANet 学习生成以语言输入为条件的像素级可供性分布，使得同一对象在不同指令下可以有不同的动作。VoxPoser 通过提示LLM以代码形式合成可供性和约束规范，扩展了这一概念，然后通过VLM将其定位到感知空间，形成3D价值图。这些图使得在无需重新训练的情况下，能够对多样的任务和对象进行零样本的轨迹合成。

除了空间定位，可供性图还支持关于物理接触和操作动态的推理。ManipLLM 将可供性图融入一个多模态的思维链框架，用它们来编码区域级的先验知识，指导操作感知的姿态生成。这些图指示了动作最有可能引起有意义的对象运动的位置，从而提高了在复杂场景中的精度和稳定性。ManiFoundation 进一步扩展了这一工作路线，将操作视为接触合成，利用力和运动热图来表示以接触为中心的可供性。这些图编码了应该在哪里发生接触、施加多大的力以及预期的运动轨迹，从而实现了对刚性和可变形对象的鲁棒接触预测。随着任务复杂性的增加，这种结构化的可供性先验知识为在物理真实的交互场中定位低级控制提供了一个可扩展的解决方案。

6.5. 讨论与未来方向 (Discussion and Future Directions)

尽管有其优势，但基于可供性的动作词元在现实世界的操作中面临几个限制，影响了其有效性。首先，大多数VLA模型依赖于2D图像表示，这不足以捕捉精确控制所需的3D几何和空间关系。虽然像A3VLM 和SoFar 这样的模型融合了部分的3D信息，但它们在涉及复杂对象形状和遮挡的任务以及动态场景（例如，将组件插入移动的装配件）或精细（例如，细粒度的部件装配）操作中仍然表现不佳。其次，可供性词元通常编码静态的对象属性，如“可抓取的把手”或“可关闭的门”，而没有建模这些可供性如何随时间演变。这些限制在需要对变化的可供性状态进行持续推理的接触丰富的任务中削弱了它们的有效性。最后，可供性表示容易受到视觉扰动的影响，如遮挡和运动模糊。具体来说，关键点在遮挡下会显著退化，而分割掩码在视觉上具有挑战性的场景中会失去准确性，从而影响操作性能。

为应对这些挑战，我们确定了三个有希望的研究方向。

学习真实的3D可供性。 一个关键的下一步是超越2D或投影的3D，直接在原生的3D表示中学习可供性。通过将策略定位在像神经辐射场（NeRF）、3D高斯溅射或显式网格这样的结构中，模型可以发展出对对象几何、自由空间和遮挡的整体理解。这种方法将为目前无法实现的复杂任务（如将零件插入隐藏的空腔或在杂乱中操作非刚性物体）解锁鲁棒的推理。

建模时间上的可供性动态。 未来的模型应该学习预测动作如何改变对象的可供性。例如，一个模型应该推断出执行“掀开盖子”的动作会将可供性状态从“可打开”转变为“可倾倒”。这种时间推理对于实现长时程规划和在接触丰富的、序列化的任务中取得成功至关重要。

增强策略的鲁棒性和不确定性意识。 现实世界的部署要求策略对视觉模糊具有弹性，并意识到自身的局限性。这需要双重关注。模型应该通过使用先进的数据增强等技术进行训练，以获得对视觉扰动的更大鲁棒性。并且，策略应该通过输出概率性的可供性来量化自身的不确定性。

7. 作为动作词元的轨迹 (Trajectory as Action Tokens)

扩展VLA模型的一个核心挑战在于机器人数据的有限可用性，特别是那些带有动作标签的数据。为了应对这一限制，近期的研究提出了利用非领域内的视频数据，这些数据通常缺乏明确的动作注释。这些工作使用轨迹作为动作表示的代理，因为它们可以很容易地从视频中提取，并封装了整个操作过程中丰富的、可操作的信息。我们在表5中总结了代表性的基于轨迹的方法。与其它工作提出的潜层表示（第9节）相比，轨迹是一种相对明确的动作表示，对人类来说既可解释又可理解，从而便于训练和调试。VLA研究中的另一个主要挑战是任务泛化。例如，以基于语言的动作词元为条件的策略，通常难以在语义上不同但低级运动模式相似的任务之间进行零样本泛化——例如从“擦桌子”泛化到“在桌上滑动一个积木”。相比之下，如RT-Trajectory所证明的，以轨迹为条件的策略在这类任务上表现出更强的泛化能力。

7.1. 轨迹概述

基于轨迹的动作词元可分为三种不同形式：点轨迹 (Point Trajectory)、视觉轨迹 (Visual Trajectory) 和 光流 (Optical Flow)。每种形式以不同的抽象层次和信息密度代表运动。

点轨迹 是最直接的方法，将一个动作编码为离散点的序列，表示为 P∈ R^T×K×2。该方法对T个时间步内K个关键点的路径进行建模，提供了有针对性的、数值上精确的指导。在自动驾驶中，模型预测未来车辆在鸟瞰图（BEV）空间中的路点。对于机器人操作任务，它们在图像平面内为末端执行器或对象生成2D坐标路径。

视觉轨迹 直接将路径渲染到像素空间中。输出不是一个坐标列表，而是一个新的图像或视频，其中预期的运动被视觉化地描绘出来。这可以通过将点序列叠加到观察帧上（表示为 I ∈ R^H×W×3）或通过生成一个随时间物化为可见曲线的视频流（例如 I ∈ R^T×H×W×3）来实现。这种形式具有高度的可解释性，因为它在其视觉背景中展示了动作。

光流提供了最密集的表示，形式化为一个运动场 V∈ R^H×W×2。该场描述了帧之间每个像素的运动，捕捉了整个场景的整体动态，而不仅仅是一条路径。通过将场景的集体运动视为动作信号，该方法可以隐式地建模复杂的多对象交互。

表5 | 使用轨迹作为动作词元的VLA研究概览
T是时间跨度，K是点的数量，(H,W)是图像分辨率。

格式	论文	前置模块-模型	前置模块-训练细节	后置模块-模型	后置模块-训练细节	任务	实体
光流 V ∈ R^H×W×2	AVDC	视频扩散模型, GMFlow	扩散模型在Bridge和20个人类演示上训练; GMFlow冻结	刚体变换回归	N/A	Meta-World, iTHOR; 桌面操作	Franka Panda (RealSense D435)
视觉轨迹 I ∈ R^H×W×3	RT-Trajectory	Code as Policies / PALM-E	冻结	RT-1	在RT-1数据集上训练	拾取-放置, 开/关抽屉, 折叠毛巾, 转椅	Everyday Robots
	Im2Flow2Act	Grounding DINO, TAPIR, CLIP, AnimateDiff	Grounding DINO冻结; AnimateDiff解码器通过LoRA在人类演示视频上微调	状态编码器, 时间对齐模块, 扩散动作头	在4800个模拟机器人探索数据上为500个epoch训练	拾取-放置, 倾倒, 开抽屉, 折叠布料	UR5e带WSG-50夹爪 (RealSense D415)
	HAMSTER	VILA-1.5-13B	在770K对象定位任务, 320K模拟2D路径, 110K真实机器人2D路径, 660K VQA上微调	RVT-2 / 3D-DA	在320个遥操作片段上训练	拾取-放置, 击倒物体, 按按钮	Franka Panda
点轨迹 P ∈ R^T×K×2	ATM	Track Transformer	在50个无动作视频演示上训练	Transformer, MLP	在10个带动作标签的演示上训练	LIBERO(仿真); 拾取-放置, 挤压物体(真实)	UR5带夹爪
	LLARVA	LLAVA 1.5	在8.5M图文-视觉轨迹对上训练	N/A	N/A	RLBench(仿真); 拾取方块, 堆叠/拆解方块(真实)	Franka Panda
	FLIP	CVAE带transformer	在40个视频上训练	扩散策略	在10个带动作标签的演示和50个无标签演示上训练	LIBERO-LONG, FMB(仿真); 折叠/展开布料(真实)	xArm6 (2 RealSense D435i)

“N/A”表示不适用。

7.2. 进展与关键论文 (Progress and Key Papers)

数据稀缺长期以来一直是机器人技术的瓶颈。基于轨迹的动作词元通过从丰富的非领域内视频中学习，提供了一个解决方案。AVDC 使用在人类或机器人演示视频上训练的扩散模型预测未来帧，并使用预训练模型生成光流，以深度信息指导下游控制。然而，这种方法计算成本高昂且容易产生幻觉。ATM 通过预测任意点的轨迹来缓解这些问题，并且只需要少量领域内带动作标签的数据进行低级策略训练。相比之下，Im2Flow2Act 不需要真实世界的机器人数据。它学习从人类演示视频中生成视频轨迹，并使用模拟数据训练一个以轨迹为条件的策略。为了弥合实体间的差距，Im2Flow2Act 专注于对象流而非任意点流。FLIP 融合了一个由视频构建的世界模型，包括动力学、动作和价值模块。它执行基于模型的规划，并预测以流和视频规划为条件的动作。与ATM相比，FLIP采样更密集的流点并实现了更好的性能，证明了密集流在低级控制中的有效性。

基于轨迹的动作词元在任务以及视觉和语义变化方面表现出强大的泛化能力。即使任务在语义上截然不同，轨迹空间中共享的运动模式也能实现跨任务泛化。例如，RT-Trajectory 通过粗略的2D或2.5D末端执行器运动轨迹来编码任务，一个端到端的策略（即RT-1）在此基础上进行条件化。RT-Trajectory在未见任务上优于RT-1、RT-2和RT-1-Goal（以目标图像为条件的RT-1）。与RT-Trajectory相比，HAMSTER 采用层级架构，使用VLM合成2D轨迹，并使用一个以3D观察为条件的低级策略。这种结构便于在大型非领域内数据集（如RoboPoint）上进行微调，从而提高了其视觉和语义泛化能力。

另一个方向是专注于在以轨迹为中心的数据上预训练大型模型。LLARVA 通过指令微调构建了一个统一的机器人LLM，融合了控制模式、任务和本体感受等结构化信息。它以文本形式输出2D轨迹和机器人动作，在控制模式上显示出更大的灵活性。尽管利用了来自Open X-Embodiment (OXE) 的850万个视觉-动作对，但其规模仍小于传统的LLM/VLM数据集。为了利用更广泛的数据集，ARM4R 引入了一个三阶段训练范式：在EPIC-KITCHENS-100上预训练，在1-2K个机器人演示上微调，并预测本体感受状态。其4D轨迹表示在LLARVA和ATM上实现了卓越的性能。Magma 是一个用于UI导航和机器人操作的基础模型，它在包含Set-of-Mark和Trace-of-Mark的异构数据集上训练，使其具备了超越仅在OpenVLA等机器人数据上训练的VLA模型的时空推理能力。

7.3. 轨迹相关数据 (Trajectory-Related Data)

可以利用多种数据来训练基于轨迹的VLA，例如互联网规模的视觉-语言数据集、人类视频和现有的机器人数据。网络规模的视觉-语言对可以向策略中注入广泛的常识。一些方法利用VLM直接输出关键点序列，这需要在协同训练阶段使用对象定位任务等视觉-语言数据集，以保持VLM的泛化能力。人类和机器人演示进一步提供了特定的可操作知识。轨迹标签可以直接从现有视频中提取，无需人工标注。一种选择是使用点跟踪工具，如CoTracker、TAPIR，或光流方法，如RAFT。另一条工作路线，如RT-Trajectory，从机器人演示中使用末端执行器状态提取2.5D轨迹。无论哪种方式，所有现有的演示数据集，无论是人类、模拟还是真实机器人，都可以轻松利用。在自动驾驶中，轨迹和字幕也可以使用像CoVLA中的流水线自动生成，该流水线结合了基于卡尔曼滤波的轨迹预测与基于规则和VLM驱动的字幕生成。

7.4. 讨论与未来方向 (Discussion and Future Directions)

尽管有其优势，但基于轨迹的动作词元面临几个关键挑战。我们确定了三个主要领域：3D空间理解、计算效率和任务适用性。大多数工作使用2D轨迹，但2D轨迹缺乏明确的3D信息。这会引入歧义并限制其在非平面任务中的适用性。深度数据是关键的补充：AVDC、RT-Trajectory和HAMSTER都融合了深度信息来缓解这个问题，并提供更丰富的3D理解。然而，一个更根本的挑战是，点轨迹通常只编码位置。它们忽略了关键的姿态信息，使得它们不适合复杂的灵巧操作任务。未来的工作可以探索将完整的3D空间信息整合到轨迹表示中。

另一个重要挑战是计算效率。许多方法使用生成模型来预测轨迹或视频，这些模型的训练和推理计算成本很高。其他方法利用VLM预测轨迹，但VLM通常以低频率输出路点，不足以实现平滑控制。一种解决方案是使用传统的规划方法将这些稀疏的输出精炼为高频控制信号。为了避免在每个时间步都重新规划，其他方法一次性预测完整轨迹，并使用时间对齐模块进行实时执行。开发轻量级且富有表现力的轨迹生成模型仍然是一个关键的研究方向。

最后，轨迹的适用性取决于任务和环境。轨迹在由精确运动路径定义的任务（如表面擦拭或导航）中表现出色。然而，在部分观察的设置中，当无法预先规划完整路径时，它们的效果较差。此外，它们缺乏语义丰富性，无法处理涉及复杂交互逻辑的任务，并且本身不捕捉施加力或理解对象可供性等概念。一个有希望的未来方向是创建混合动作词元，将轨迹词元与语义概念（例如，“抓取”、“增加力”）相结合，使机器人能够处理更广泛和更复杂的任务。

8. 作为动作词元的目标状态 (Goal State as Action Tokens)

当人类处理操作任务时，我们的大脑不仅仅是将原始感知直接转化为动作。相反，我们经常进行一种心理模拟，在执行任何步骤之前设想期望的结果。例如，如果被要求“清理桌子”，人们首先会构想一个整洁有序的桌子，然后反向工作以确定必要的行动。受到这种强大的人类认知策略的启发，越来越多的VLA模型研究提出利用预测的目标状态——任务预期结果的视觉表示——作为一种中间动作词元。这些工作，包括像3D-VLA、FLIP和VPP这样的最新进展，旨在通过将“做什么”定位在一个视觉丰富且可解释的形式中，来弥合高级指令和低级动作之间的差距。

通常，使用目标状态作为动作词元的模型采用一种层级架构。一个高级模型，通常是像DiT或CVAE这样的生成模型，负责根据当前的观察和语言指令条件合成目标状态。这个生成的目标状态随后会条件化一个低级模型，例如扩散策略或MLP，它将其转化为最终的动作序列。这种设置有效地将目标状态确立为一个关键的心理模拟步骤，位于理解指令和合成动作之间。目标状态可以根据其时间维度大致分为两种主要类型：单帧图像和多帧视频。为了提供一个简洁的概述，表6列出了本节讨论的主要方法。

8.1. 作为目标状态的单帧图像 (Single-Frame Image as Goal State)

单帧目标状态通常采用2D RGB图像、2.5D RGB-D图像或3D点云的形式来描绘整个期望的场景，如近期工作所示，这提供了许多关键优势。例如，LangLfP展示了利用目标图像的方法如何通过**事后目标重标注（hindsight relabeling）**实现简单的数据扩展。该技术摄取未分割的机器人游戏数据流，自动采样短窗口，并将每个窗口的最后一帧视为目标图像。这个过程自主地生成了一个带有目标图像注释的大规模机器人动作数据集，完全绕过了人工标注的需求。在目标图像用于数据扩展和低级控制的效用基础上，后续工作整合了高级目标图像生成，以创建完整的层级VLA模型。例如，SuSIE首先利用一个简单的图像生成模型进行视觉-语义推理，然后交由一个低级策略来确定精确的电机驱动。

具体来说，一个高级扩散模型从语言指令生成目标图像，一个低级DDPM将这些图像解码为所需的动作序列。CoTDiffusion通过集成一个语义对齐模块，进一步扩展了SuSIE的层级扩散架构，该模块使扩散模型能够评估自身的任务完成进度。使用目标图像的另一个显著优势是它们能够利用无动作视频来训练高级目标图像生成器。例如，CoT-VLA利用无动作的人类视频来训练其目标图像生成器。与上述基于扩散的架构不同，CoT-VLA中的两个阶段都是自回归VLM：高级模型使用因果注意力合成目标图像，而低级模型使用非因果注意力生成相应的动作序列。除了标准的RGB图像，像3D-VLA这样的一些工作已将单帧目标状态扩展到包含RGB-D图像和点云。通过用深度和3D几何配置丰富视觉编码，这些方法为任务目标提供了更精确的定位和感知上更丰富的描绘。

8.2. 作为目标状态的多帧视频 (Multi-Frame Video as Goal State)

与单帧目标状态相比，多帧目标状态（通常是短视频）提供了更丰富的时间背景。通过捕捉场景如何演变，这个额外的时间维度提供了关键的“如何做”线索，显著减少了执行歧义并提供了更精细的运动信息。该领域的研究通过各种创新利用多帧目标状态：从大规模数据生成——一种方法专注于从庞大的数据集中生成未来视频内容以指导行动。例如，UniPi开创了使用互联网规模数据进行文本条件视频生成的先河，然后用一个逆动力学模型（MLP）从这些预测的视频序列中计算动作。从视频中提取隐式动作线索——其他工作则专注于直接从生成的目标视频中提取显式或隐式的与动作相关的信息。例如，AVDC使模型能够在不依赖任何动作标签的情况下利用视频内的密集对应关系。它通过使用一个扩散模型合成未来视频帧，然后从这些帧中提取密集的像素级光流来实现这一点，这些光流可以指导低级策略。这种方法有效地将视觉运动转化为可操作的指导。增强泛化与鲁棒性——多帧目标状态也被探索用于提高模型的泛化和鲁棒性。认识到特定于实体的策略限制了更广泛的泛化，Gen2Act和FLIP通过生成人类执行的目标视频而非机器人特定的视频，增强了跨实体的泛化，从而减少了对机器人特定微调的依赖。类似地，GEVRM引入了一个辅助状态对齐损失，专门设计用于提高对外部扰动的鲁棒性。复杂长时程任务的策略——对于复杂的长时程任务，研究人员通常采用两种主要方法。一种常见的方法，如Gen2Act所示，直接利用LLM将长程任务分解为较短的子任务，然后为每个较短的片段运行相同的模型。第二种方法涉及使用多个候选目标视频进行改进的规划。VLP用一个独立的VLM生成并评分多个候选目标视频，使用一种类似波束搜索的算法来选择最优的长期策略。类似地，FLIP改编了一个语言-图像评估模型（LIV）来评估候选的人类执行的目标视频（由一个DiT网络从关键点轨迹合成），然后使用一种类似波束搜索的算法来选择最佳的长期选项。这些方法展示了使用多帧目标的复杂规划。

8.3. 优势与局限性 (Advantages and Limitations of Goal State)

目标状态作为动作词元提供了几个关键优势，显著提升了其有效性。首先，目标状态提供了极佳的数据可扩展性。这得益于事后目标重标注，它允许通过从原始机器人轨迹中提取单帧和多帧目标状态，自主生成海量训练数据集，从根本上绕过了动作标注的瓶颈。此外，使用目标状态解锁了对更广泛训练数据源的访问和增强的泛化能力。它们的生成器可以利用大规模的无动作视频数据来学习现实世界的动态，从而提高整体泛化能力。此外，在人类执行的目标状态（例如，Gen2Act）上进行训练，特别能提升它们的跨实体泛化能力，增强了跨不同机器人平台的知识迁移。除了数据，目标状态还增强了任务的特异性。通过编码高度精确的空间和视觉信息，它们作为清晰的动作词元，减少了复杂任务中的歧义，为低级策略提供了精确的视觉指令以进行精细的动作执行。这些模型还拥有强大的可解释性；它们的“白盒”训练和推理过程使人类的理解、调试和干预更加可行。此外，目标状态本身也易于直接评估。现成的语言-图像评估模型，如在FLIP中改编的模型，可以通过检查它们与语言指令的对齐情况，轻松评估目标状态的质量。

尽管有显著的优势，目标状态本身也存在一些局限性。生成高质量且一致的目标状态仍然具有挑战性，常常表现为过分具体化或完全不准确。过分具体化发生在生成的目标状态包含不必要或过于精确的细节时。这可能导致低级策略专注于琐碎的方面，过度约束其灵活性，甚至在这些精确细节不关键时使任务更难完成，从而损害了策略对环境或任务执行中轻微变化的泛化能力。为了缓解这个问题，VPP通过其高级扩散模型仅执行一步去噪来合成目标视频，只传达粗略的动作，并省略一些精细的细节，从而部分缓解了过分具体化的问题。相反，不准确意味着生成的目标状态在根本上是不正确的，与期望结果不一致，物理上不可行，或由于动力学建模不足而表现出时空不一致性。这种错误的目标直接提供了误导性的指导，不可避免地导致低级策略尝试错误的动作并导致任务失败。此外，生成未来图像或视频本身就带来了高推理延迟，因为计算开销巨大。例如，AVDC合成一个8帧的目标视频需要大约10秒。这种显著的延迟被低级策略需要以这些计算密集的目标状态为条件来生成动作序列进一步加剧。一些方法，如Gen2Act，仅实现了3Hz的推理速度，使得实时机器人控制变得困难。即使是VPP，通过在生成目标状态时只执行一步去噪来部分缓解这个问题，也只能达到7-10Hz的控制频率。

目标状态作为动作词元代表了VLA模型发展的一个吉祥方向，提供了卓越的数据可扩展性、丰富的视觉指导和强大的可解释性。图像和视频生成领域的快速发展（以扩散模型和大规模视频生成模型为代表）为这一范式提供了日益坚实的基础，因为更高质量和时间上更一致的视觉内容将通过为具身智能体提供精确和丰富的视觉指导，更好地利用这种目标指定方法的本质。谷歌最近发布的Veo 3视频生成模型在图像质量和物理约束遵守方面都表现出色。除了生成质量的提升，还有几个关键的研究方向值得探索：提高计算效率以实现实时机器人控制，增强对环境变化的鲁棒性以部署在真实世界场景中，以及为长时程任务规划开发更高效的方法，因为当前的方法要么严重依赖于基于LLM的任务分解（受限于子任务分割的质量），要么采用计算成本高昂的类似波束搜索的策略来评估候选目标。解决这些局限性对于将目标状态确立为一种高效且广泛适用的VLA动作词元至关重要。

9. 作为动作词元的潜层表示 (Latent Representation as Action Tokens)

具身AI面临一个根本性挑战，即大规模、特定于实体且带有动作标签的数据集的有限可用性。为了克服这个数据瓶颈，研究人员转向了更具可扩展性的数据源，例如网络规模的人类活动视频（如Ego4D）和异构的跨实体机器人数据集。尽管这些数据源很丰富，但它们通常缺乏明确的动作注释或存在显著的实体差异，使得直接利用它们变得困难。一个有希望的方法是从这些数据中提取统一的、与实体无关的潜层动作表示，这些表示编码了高级语义行为——如抓取或左转——并有效地建模了真实世界的动态以支持机器人学习。这个思想及其扩展和变体，已在一系列采用潜层表示作为动作词元的VLA模型中得到探索。

通常，这些方法通过一个三阶段的流程实现，如图5所示。初始的**潜层构建（Latent Construction）阶段以无监督的方式从一个大型数据集中构建一个潜层动作空间，为后续阶段提供伪标签。接下来，在潜层预训练（Latent Pretraining）阶段，一个VLM被调整以根据当前的观察和指令预测适当的潜层动作。最后的动作微调（Action Fine-tuning）**阶段训练VLA将预测的高级潜层动作转化为目标实体的低级、可执行的命令。根据这些潜层动作所代表的内容，这些方法大致可分为基于视觉、基于动作或基于目标。表7提供了本节讨论的代表性方法的全面概述。

在这里插入图片描述

图 5 | 利用潜层表示作为动作词元的代表性方法（行）的统一可视化，突出了它们在潜层空间构建、训练和推理（列）方面的多样化策略。Inst.：指令，p：本体感受，l：语言指令。

9.1. 基于视觉的潜层表示

基于视觉的潜层构建主要利用VQ-VAE风格的架构来建模视觉状态转换。模型通过从先前的观察中重构未来的目标观察来学习，并以来自VQ-VAE码本的潜层码序列z^1:N为条件。这个框架固有的信息瓶颈迫使这些码提炼出状态之间的视觉转换信息，其中包含了关于底层动作的信息。Genie例证了这种方法，它在互联网游戏视频上进行训练，以产生一个完全由潜层动作控制的世界模型。这些学习到的动作表现出显著的语义一致性，不仅在不同游戏之间实现了连贯的控制，而且在泛化到真实世界机器人场景时也是如此。LAPA将此方法应用于机器人操作，通过将学习到的离散潜层动作词元化并使用VLM进行潜层动作预测。该策略展示了卓越的跨实体学习能力，在预训练和微调阶段实体发生变化时，其性能优于在真实动作标签上进行的预训练。GO-1进一步改进了这种方法，采用了类似π₀的架构，通过因果的、逐层的条件化，将VLM、潜层规划器和基于扩散的动作头集成到一个共享的主干中。这种统一的架构可以预测潜层动作并为下游任务生成精细、高频的运动。真实世界的实验通过展示比没有潜层规划器的基线更好的性能增益，验证了潜层规划器的有效性。然而，基于视觉的方法的一个关键挑战是，由此产生的潜层空间可能会无意中捕捉到与任务无关的视觉变化，例如背景杂乱或相机抖动。UniVLA通过首先使用DINOv2将原始像素转换为补丁级的语义特征来缓解这个问题。然后，它采用一个两阶段的训练方案，使用语言指令明确地将潜层空间解耦为任务中心的和任务无关的动作词元。消融实验结果显示，由UniVLA构建的潜层空间比使用Genie方法产生的潜层空间有效性高出6.4%。

9.2. 基于动作的潜层表示

与基于视觉的方法不同，另一条工作路线采用基于动作的潜层表示，它通过直接编码和重构固定长度H的动作块来学习一个潜层技能空间。例如，QueST将FSQ应用于一个多任务操作数据集的这些块，学习一个与任务无关的动作原语词汇表（例如，伸手、抓取或抬起）。实验证实了这种方法的价值：可视化显示语义相似的行为聚类在一起，学习到的技能在向新任务的少样本迁移中表现出有效性。虽然有效，但这种方法在预训练阶段对带有动作标签的数据的依赖限制了其可扩展性和跨实体的泛化能力。

9.3. 基于目标的潜层表示

与建模短期视觉转换或动作原语的方法不同，基于目标的表示将整个任务的轨迹编码到代表整体目标的潜层向量中。这种范式在像《我的世界》（Minecraft）这样的虚拟开放世界环境中被证明特别有效。该领域的开创性方法，如GROOT和GROOT-2，采用VAE来将整个任务的观察序列编码成一个连续的潜层向量序列。随后，一个以这些潜层向量为条件的解码器，从观察中因果地重构相应的动作序列。然而，正如GROOT-2中所讨论的，这个潜层空间容易出现两种失败模式——对低级轨迹的机械模仿和后验坍塌，导致偏离预期的目标信息。为了更好地将潜层空间与任务相关的目标对齐并解决这些问题，GROOT-2通过鼓励编码的潜层目标与编码的语言指令通过一个MLE目标相匹配，引入了弱监督。尽管有这些改进，这些方法仍缺乏推理和长时程规划能力。OmniJARVIS通过调整一个VLM来联合建模离散的潜层目标以及包含观察、指令、记忆和思考的视觉和语言词元，解决了这个问题。这种方法确保了强大的推理和高效的决策能力，正如其能够回答《我的世界》相关问题并成功执行如挖钻石等复杂的、长时程的任务所证明的，而这些任务以前是无法实现的。

9.4. 优势与局限性 (Advantages and Limitations of Latent Representation)

利用潜层表示作为动作词元，在可扩展性、训练效率和表达能力方面产生了几个关键优势。首先，基于视觉的潜层表示使模型能够在无动作的、互联网规模的人类视频和跨实体机器人数据集上进行扩展，培养了一种与实体无关的对物理动态的理解，这增强了泛化能力，并允许高效的下游实体特定的微调。这种可扩展性得到了训练效率显著提升的补充。通过将高级的运动学语义编码到一个紧凑的序列中，潜层空间为VLM提供了一个比原始动作简单得多的预训练目标。例如，UniVLA仅用4.45%的训练时间就达到了与OpenVLA相当的性能。最后，潜层表示由于能够学习更紧凑和高效的结构，隐式编码难以通过显式格式指定的任务相关语义，并支持集成非视觉和非语言模态——例如触觉反馈和音频——而提供了强大的表达潜力，这些模态通常是语言和基于视觉的动作词元（如语言规划或关键点）无法访问的。

尽管潜层表示提供了上述优势，但一个关键的局限性在于其固有的缺乏可解释性和可控性，这使得人类无法干预或纠正策略失败，而这在像RT-H这样的方法中是可能的，从而使解释和调试变得更加困难。因此，潜层表示可能不适用于需要严格安全或可靠性保证的场景。

鉴于潜层表示固有的不可解释性，其构建的属性和质量变得至关重要。未来的研究因此应集中在三个关键方向。一是实现适当的粒度：潜层空间必须足够精细以表示灵巧任务所需的细微变化，但又足够抽象以避免不必要的复杂性和死记硬背。当前基于视觉的方法通常在粒度不足和重构保真度低方面存在问题，限制了它们在如精细操作等高度灵巧任务中的有效性。二是全面性：潜层空间必须包含给定任务领域所需的全谱行为，因为一个不完整的行为词汇表在智能体遇到其学习范围之外的情况时，将不可避免地导致策略失败。第三个关键焦点是确保与人类意图的强对齐。正如在UniVLA和GROOT-2的讨论中强调的，源自视觉和动作数据的潜层空间可能会无意中编码与给定指令无关的信息。因此，开发鲁棒的方法来从这种噪声中解耦出以任务为中心的信号至关重要。我们相信，专注于这三个轴心——提高表示的粒度、全面性并加强与人类意图的对齐——对于推进利用潜层表示作为动作词元的方法的能力和可靠性至关重要。

10. 作为动作词元的原始动作 (Raw Action as Action Tokens)

在前面的章节中，我们讨论了编码可操作指导的各种形式的动作词元。这些词元通常作为VLA模块的中间输出，最终被映射为原始动作。每种形式的动作词元都展现出独特的特性，使其适用于特定的领域。然而，选择一种合适的词元表示可能并非易事。在这种情况下，一个直接而直观的替代方案是将VLA模型构建为从视觉和语言输入到原始动作的直接映射。

这一策略进一步受到基础模型成功的启发，这些基础模型在大型、多样、与任务无关的数据集上进行训练，并能够在下游任务中以零样本或少样本的方式实现强大性能，展示了泛化和可扩展性。类似地，典型的方法是收集带有自然语言注释的大规模真实世界机器人数据集，并端到端地训练VLA模型直接预测原始动作。其 overarching 的目标是，随着数据集在规模和多样性上的增长以及基础模型能力的增强，最终的VLA模型可以学习到一个通用的机器人策略。鉴于这种训练范式与基础模型的训练范式之间存在强烈的相似性，许多在基础模型社区中开发的技术和最佳实践可以被继承并应用于此。

本节回顾了沿此方向的进展，代表性工作总结于表8。

10.1. 视觉-语言特征融合 (Vision-Language Feature Fusion)

在早期阶段，最常见的方法是融合视觉和语言模块以获得用于下游任务的多模态特征。这些融合后的表示然后通过简单的层被映射到原始动作。LangLfP 是最早的VLA模型之一。它使用MLP和CNN来编码输入，并采用一个CVAE解码器来生成动作序列。为了扩大数据量，LangLfP将1000万个以目标图像为条件的“状态-动作”对与1万个由人类标记的、以语言为条件的样本结合起来。BC-Z 是最早收集大型数据集（2.6万条机器人数据和1.9万条人类视频）以研究数据扩展如何帮助泛化策略训练的工作之一。它利用了ResNet 和多语言句子编码器，但通过使用多阶段的FiLM条件化改进了融合过程，该过程根据语言输入动态地调整视觉特征。这种方法允许更精细的指令定位，并用一个更简单的MLP来解码动作。

10.2. 基于Transformer的通用模型 (Transformer-Based Generalists)

基于LLM中缩放定律的成功，后续工作采取了进一步的措施来构建更大的数据集，包含更多样化的任务领域，并采用自回归transformer主干，目标是训练通用模型。VIMA 使用Mask R-CNN 和ViT从视觉观察中提取对象词元，然后与语言词元连接，并由一个预训练的T5模型处理以产生多模态提示词元。这些词元被用作交叉注意力层的输入，以解码机器人动作。Gato 成功地在一个包含596个控制任务（总计1.5T词元）和8个视觉-语言数据集的组合上训练了一个大型的仅解码器transformer模型（12亿参数）。Gato模型能够执行跨不同领域的广泛任务，例如Atari游戏、机器人操作、VQA和聊天任务。通过统一视觉、语言和动作词元，Gato证明了单个自回归模型可以充当一个多模态、多任务、多实体的通用策略。LEO 通过整合额外的3D数据集来扩展这一概念，以增强模型的3D推理能力，将通用模型提升到3D空间。这一改进加强了LEO在具身推理和规划任务中的能力。JARVIS-VLA 是一个从预训练的VLM模型（Qwen2-VL或LLaVA-NeXT）微调而来的《我的世界》VLA模型。虽然之前的VLA模型通常直接应用模仿学习在大型数据集上微调VLM以进行动作预测，但JARVIS-VLA采用了一个三阶段的微调策略：（1）纯文本的世界知识微调，（2）多模态的视觉-语言对齐和空间定位，以及（3）指令遵循的模仿学习。

10.3. 自回归机器人VLA (Autoregressive Robot VLA)

随着对机器人技术的关注日益增加，RT-1 引入了当时最大的机器人操作数据集，包含跨越700多个任务的13万个演示，并训练了一个基于transformer的真实机器人模型。它利用了FiLM条件化的EfficientNet，允许语言来调整视觉特征。transformer解码器然后自回归地生成原始动作。RT-1在已见任务上表现出强大的性能，能很好地泛化到未见任务，并对干扰物和变化的背景显示出鲁棒性。其性能通过加入模拟数据得到进一步提升。此外，整合来自不同机器人平台（Everyday Robots和Kuka）的数据使得能够跨不同实体进行泛化。RT-2 通过更精简的端到端设计进一步推进了这一工作，最大化了从基础模型中的知识迁移。它将网络规模的预训练VLM（PaLI-X 和PaLM-E）微调为端到端的VLA（RT-2-PaLI-X和RT-2-PaLM-E），这些模型直接输出原始动作。原始机器人动作被离散化为动作箱，从而能够以与VLM相同的方式进行自回归推理。重要的是，这种方法减轻了修改基础模型原始架构的需要。通过利用基础VLM作为主干，并在视觉-语言和机器人动作数据上进行协同训练，RT-2展现出增强的推理和泛化能力。它在测试时推理中展示了超越其训练数据的涌现能力。此外，带有思维链推理的RT-2可以解释和响应复杂的命令，突显了使用VLM作为VLA模型主干的显著优势。为了增强数据集的规模和多样性以改进策略泛化，OXE 引入了一个统一的数据集，包含了从22个不同机器人收集的超过100万条轨迹。在该数据集上重新训练RT-1/2的实证结果表明，跨实体训练带来了显著的性能提升，并且模型容量在数据丰富的环境中起着关键作用。

尽管RT-2模型产生了重大影响，但其训练代码和模型尚未公开发布。

表8 | 使用原始动作作为动作词元的VLA研究概览 (第一部分)

论文	动作头类型	动作词元格式	模型	训练策略	任务	实体	频率
LangLfP	CVAE	6-DoF笛卡尔位姿, 2-DoF夹爪角度	语言编码器: 简单MLP; 视觉编码器: 简单CNN; 动作头: CVAE	在10K语言条件和10M目标图像条件的机器人数据上训练	桌面操作 (3D Playroom)	3D Playroom	30 Hz
BC-Z	多头MLP	6-DoF笛卡尔位姿, 轴角, delta形式, 1-DoF夹爪角度	语言编码器: MUSE; 视频编码器: ResNet-18; 主干: FiLM条件化的ResNet-18, 多头MLP动作头	在26K机器人数据和19K人类视频(100个任务)上训练	桌面操作	Everyday Robots	10 Hz
Gato	自回归transformer	任务特定的文本/控制动作	1.2B仅解码器transformer	在来自604个任务(VQA, 游戏, 机器人控制)的1.5T词元上联合训练	DM Lab, ALE Atari; RGB堆叠基准(仿真, 真实)	DM Lab, ALE Atari; Sawyer (真实)	20 Hz
VIMA	自回归transformer	两个SE(2)位姿(拾取/放置或推), 离散化为箱	多模态提示编码器: Mask R-CNN, VIT, T5; 主干: transformer	在来自VIMA-Bench的17个任务的650K轨迹上训练	桌面操作(VIMA-Bench)	UR5带吸盘或抹刀	N/A
RT-1	自回归transformer	6-DoF末端执行器位姿, 1-DoF夹爪状态等, delta形式	语言编码器: USE; 视觉编码器: FiLM条件化的EfficientNet-B3; 主干: TokenLearner, transformer	在RT-1数据集(~130K片段, 700+任务)上训练	移动操作(办公室厨房)	Everyday Robots	3 Hz
RT-2	自回归transformer	6-DoF末端执行器位姿, 1-DoF夹爪状态, 1个终止命令, delta形式	PaLI-X (5B/55B) / PaLM-E (12B)	在RT-1数据集和网络规模视觉-语言数据上协同训练	移动操作(办公室厨房)	Everyday Robots	1-3 Hz (55B), ~5 Hz (5B)
RT-X	自回归transformer	与RT-1或RT-2相同	RT-1/RT-2	RT-1和RT-2在OXE子集(含9种实体)上训练得到RT-1-X和RT-2-X	OXE内的小数据和大数据领域	任务特定的实体	3-10 Hz
RoboFlamingo	LSTM, MLP	6-DoF末端执行器位姿, 1-DoF二元夹爪状态, delta形式	OpenFlamingo, 动作头	在CALVIN数据集上训练	CALVIN	Franka Panda	未报告
LEO	自回归transformer	导航: 4个离散命令; 操作: 6-DoF位姿	图像编码器: OpenCLIP ConvNext; 3D编码器: PointNet++; 主干: Vicuna-7B	在LEO-align和LEO-instruct数据集上训练	3D VQA, 字幕, 对话和规划; 对象导航; 机器人操作	导航: AI Habitat; 操作: CLIPort	未报告
GR-1	MLP	6-DoF末端执行器位姿, 1-DoF二元夹爪状态, delta形式	语言编码器: CLIP; 视觉编码器: MAE预训练的ViT; 主干: GPT风格的transformer	在Ego4D的800K视频片段上进行视频生成预训练, 在机器人数据上进行任务特定微调	CALVIN, 运输物体; 关节物体操作(真实)	Franka Panda (仿真), Kinova Gen2 (真实)	未报告
Octo	扩散	6-DoF末端执行器位姿, 1-DoF夹爪状态, delta形式, 动作分块	语言编码器: T5-base (冻结); 视觉编码器: CNN; 主干: transformer, 轻量级扩散头	在来自OXE的25个数据集的800K轨迹上预训练; 在~100条轨迹上微调	零样本: 分布内操作任务; 微调: 新实体上的新操作任务	零样本: WidowX, UR5, Everyday Robots; 微调: Franka Panda, ViperX, ALOHA	5-15 Hz
OpenVLA	自回归transformer	6-DoF末端执行器位姿, 1-DoF夹爪状态, delta形式	Prismatic-7B VLM	在OXE的970K机器人片段上预训练; 对每任务10-150个演示进行微调	零样本: BridgeData V2和Google Robot Evaluations中的操作任务; 微调: Franka-Tabletop等	WidowX, Google Robot, Franka Panda	6 Hz (RTX 4090)
TinyVLA	扩散	7-DoF末端执行器位姿, 1-DoF夹爪状态, 绝对位置	视觉编码器: ViT; 主干: Pythia; 动作头: 扩散	VLM使用LLAVA流程和数据集进行预训练; 在每任务100条机器人数据上进行参数高效微调	桌面操作	Franka Panda, Bimanual UR5	未报告
HIRT	MLP	6-DoF末端执行器位姿, 1-DoF夹爪状态, delta形式	理解模块: InstructBLIP-7B (LoRA); 执行模块: 轻量级策略	在Meta-World(20任务), Franka-Kitchen(5任务)和4个真实任务上训练	Meta-World, Franka-Kitchen; 拾取-放置, 按按钮, 走线, 开抽屉(真实)	Franka Panda (真实)	9.8 Hz

10.4. 视频预训练与机器人数据微调 (Video Pretraining and Robot Data Fine-Tuning)

另一条研究路线探索了大规模视频生成预训练，以捕捉世界动态并促进机器人学习。例如，GR-1 采用了一个GPT风格的transformer模型，该模型在视频预训练期间学习预测未来帧，随后在机器人数据集上进行微调以整合动作生成。在CALVIN模拟基准和一个真实机器人上的实验结果证明了基于视频的预训练的有效性。其后继者GR-2 通过在一个更大的数据集（3800万个文-视频对，而GR-1为80万个片段）上进行预训练，并用一个CVAE替换MLP动作头，扩展了这种方法。该模型学习从视频中捕捉关键的世界动态和语义信息，这对于下游策略学习至关重要。GR-2的视频生成能力有效地充当了动作生成的规划器，生成的视频与真实世界的推演紧密对齐。

10.5. 基于扩散的动作分块 (Diffusion-Based Action Chunking)

尽管基于transformer的自回归模型取得了显著进展，但一些局限性仍然存在。首先，离散的自回归词元化可能难以表示连续或多模态的动作，这对于灵巧的任务尤为关键。此外，标准的自回归生成过程一次只产生一个动作，限制了动作的推理频率。为了解决这些问题，一类新的VLA模型作为纯GPT风格架构的替代方案而出现：使用带有动作分块的基于扩散的动作头。扩散策略已证明其在建模多模态动作分布方面的卓越能力，而动作分块则允许模型同时输出序列动作。这种方法改善了时间一致性，减少了复合误差，并显著提升了控制频率。

Octo 是一个早期的工作，它引入了一个带有扩散头的基于transformer的策略，在一个来自OXE的25个数据集的子集上进行训练。该模型用CNN和ViT处理图像，而语言则由一个冻结的T5模型处理。transformer的块状注意力结构允许在微调期间添加或移除输入和输出，从而能够适应跨实体的动作和观察空间。这种设计增强了输入源和微调的灵活性。一个更新且更具影响力的进展是 π₀，它将流匹配（flow matching）与动作分块相结合以改进策略。π₀的VLM主干从PaliGemma初始化。该模型在一个包含OXE Magic Soup和π数据集的混合数据集上进行预训练，覆盖了广泛的场景、纠正行为和恢复策略。在后训练阶段，π₀在一个更小的、特定于任务的数据集上进行微调，以适应特定的下游任务。结果显示，全面的预训练能够实现强大的零样本泛化，而只需要最少的微调数据就能在如洗衣、搭箱子和打包鸡蛋等复杂的多阶段任务中实现高性能。此外，π₀支持高达50Hz的控制频率——比RT-2的5Hz有数量级的提升。

RDT 进一步将基于扩散的VLA模型扩展到双臂操作，展示了令人印象深刻的少样本学习能力。它使用冻结的SigLIP 和T5-XXL进行图像和语言编码，并将DiT头扩展到10亿参数。RDT可以从少至1-5个演示中获取新技能，标志着在复杂机器人任务中实现高度数据高效学习的重要一步。CogACT 在OpenVLA上添加了一个基于扩散的动作头，并引入了一种集成策略来通过聚合分块序列来减轻块间模式切换。HybridVLA 将自回归和扩散策略集成到一个统一的VLA模型中。

10.6. 异构数据集与统一动作空间 (Heterogeneous Datasets and Unified Action Space)

GROOT N1 引入了数据金字塔来增强用于训练机器人基础模型的数据的多样性和数量。该金字塔包含大规模的网络和人类视频数据、中等规模的合成模拟数据和小规模的真实世界数据。它通过从人类视频和由DexMimicGen生成的合成演示中提取潜层动作，并结合真实世界数据进行训练，从而利用了整个金字塔。GROOT N1采用了一个层级架构，其中高级模型是一个慢速（10Hz）的自回归VLM（Eagle-2, 13.4亿参数），负责从视觉和语言输入进行高级的上下文推理和规划。低级模型是一个快速（120Hz）的扩散transformer（8.6亿参数），专门用于实时电机控制，生成平滑和响应迅速的动作。这两个模型紧密集成并端到端地联合训练。为了更好地利用跨实体数据集，UniAct 学习了一个跨不同实体兼容的通用动作空间，由向量量化的码表示，其中每个码编码了不同机器人共享的共同原子行为。

10.7. 最新进展 (Recent Advancements)

尽管带有动作分块的基于扩散的动作头取得了进展，但推理延迟问题依然存在，因为模型需要时间来生成下一个动作块。如果机器人在下一个块仍在推断时继续执行前一个块，那么新的动作块将基于过时的观察，缺乏实时的环境反馈。此外，扩散过程中可能存在多个合理的动作模式在块的边界处，模式切换可能导致块之间的不连续性，从而导致动作生涩或超出分布。Real-Time Chunking 表明，简单的基于平均的平滑策略实际上会降低性能，产生的轨迹比单个块的轨迹更差。相反，它将块融合构建为通过流匹配进行的推理时修复（inference-time inpainting），并引入软掩码来改善跨块的连续性。在推理期间，模型在执行当前块的同时生成下一个动作块，冻结保证被执行的动作并修复剩余的步骤。软掩码确保块的其余部分在生成过程中仍被考虑，进一步提高了跨块的连续性。

π₀-FAST，π₀的一个扩展，表明朴素的分箱词元化方法由于高频下连续词元之间的强相关性而产生较差的结果。为了解决这个问题，它应用了**离散余弦变换（DCT）**来编码动作块。基于DCT的表示在不同任务中提供了大量的词元压缩（高达13.2倍），同时产生了更平滑的动作轨迹——这对于高精度操作至关重要。

先前工作的另一个局限性是，仅VLM预训练并不能产生与机器人任务完全对齐的表示，而使用动作监督进行朴素的微调会降低先前学习到的知识。为了解决这个问题，带有知识绝缘的π₀.₅ 提出了在离散动作和通用视觉-语言数据上预训练VLM主干，以发展鲁棒、可迁移的表示。动作专家使用流匹配在连续动作上单独训练。为了保留主干的预训练知识，来自动作专家的梯度被阻止回流，从而有效地绝缘了其表示。在推理期间，轻量级的动作专家生成连续动作，而冻结的主干则贡献了从多样化预训练数据中获得的广泛的视觉-语言理解。

10.8. 结论与讨论 (Conclusions and Discussions)

总而言之，原始动作作为最直接和可执行的动作表示形式，使其成为VLA模型的自然选择。这种方法通常涉及最少的人类先验知识和较少的结构约束，有利于端到端的学习。由于真实世界数据是以原始动作格式收集的，它也需要最少的动作词元注释。与LLM发展中观察到的“痛苦的教训”一致，即强调扩展而非手工工程的力量，基于原始动作的端到端VLA模型可能会随着基础模型变得更强大和数据集变得更大而演进。

事实上，使用原始动作词元的VLA模型的演进反映了基础模型时代的更广泛趋势——扩展数据和模型的大小，改进基础模型架构，以及从纯粹的预训练过渡到后训练策略。近期的工作，如π₀、RDT和GROOT N1，证明了全面的预训练能够实现强大的零样本泛化和高效的特定任务微调。这一进程与LLM的发展轨迹相呼应。

然而，原始动作数据缺乏语言数据那样的互联网规模的可访问性。它的收集成本高昂，通常需要遥操作和真实的机器人交互，这限制了其可扩展性。此外，原始动作不能直接在不同实体之间泛化，而在下游任务上进行微调或后训练可能导致预训练的视觉-语言知识的灾难性遗忘。此外，直接生成原始控制命令而不带中间表示对于长期控制任务来说不太实用，因为所需的上下文长度、计算成本和推理延迟可能会变得高得令人望而却步。在保留基础模型知识的同时解决这些挑战，仍然是未来研究的一个关键方向。

11. 作为动作词元的推理 (Reasoning as Action Tokens)

具身任务，如机器人操作和自动驾驶，通常要求AI智能体具备复杂的认知能力。它们的内在复杂性源于对长时程推理、对空间、语义和常识的深刻理解，以及在动态环境中有效操作的能力的需求。即使是先进的基础模型在这些领域也面临相当大的挑战。虽然期望单个VLA模型能够处理广泛的具身任务，但仅仅扩展模型参数通常不足以应对现实世界场景的内在复杂性，特别是那些要求鲁棒的逻辑和具身推理的场景。因此，为VLA配备增强的推理能力成为一个有希望的解决方案。表9总结了明确使用推理作为动作词元的代表性工作。

在VLA的背景下，推理指的是一种审慎的思考过程，它以外化的自然语言形式明确表达，并用于增强目标动作词元的生成。与其他直接代表物理运动或强调对象交互的动作词元不同，这些推理词元起着中介作用，促进了后续可执行动作词元的生成。这个概念允许模型“一步一步地思考”并将其内部决策过程外化。例如，RAD 使用推理来产生由语言规划告知的原始动作，而DriveVLM 在生成车辆运动轨迹之前处理推理。

11.1. VLA模型中推理的演进 (Evolution of Reasoning in VLA Models)

外化内部推理过程的核心思想源于**思维链（Chain of Thought, CoT）**提示。最初为LLM开发，用于在最终输出前阐明中间步骤（例如，通过提示“一步一步思考”），CoT此后已超越纯文本领域。它向视觉和多模态环境的扩展为推理如何在VLA模型中发挥作用奠定了基础。例如，CoT已被应用于生成视觉中间产物，例如在计算视觉任务中的最终动作之前生成目标对象的边界框。

具身推理的早期开创性工作通常利用LLM，并辅以额外的模块来解释视觉场景。一个著名的例子是Inner Monologue，它使用LLM接受人类指令、场景描述（由MDETR生成）和动作反馈（来自利用的感知模型）。这种设置允许递归的多步语言规划，直到任务成功完成。

然而，该领域已迅速发展。如今，集成推理的VLA模型的主流方法是利用VLM。VLM拥有内在且熟练的多模态先验知识，通过减少对众多额外模块的需求来简化模型架构。它们处理语言和视觉两种模态的内在能力显著增强了复杂具身任务的推理过程。为了使这些VLM适应对具身任务至关重要的特定推理模式，通常采用模型微调或重新训练的方法，如Embodied CoT (ECoT) 和RAD 所示。

11.2. 关键实现与应用 (Key Implementations and Applications)

ECoT 是一个采用推理进行具身任务的典型例子。基于Prismatic VLM 构建，一个OpenVLA模型专门用推理数据进行训练。该领域的一个重要挑战是获取高质量、大规模的推理数据集。虽然人工标注能产生卓越的质量，但在规模上是不可行的。ECoT引入了一个自动化的数据合成流水线，将推理结构化为一个固定的序列，从任务分解到夹爪位置和对象框预测。

继ECoT之后，RAD 采用了类似的框架，但大幅扩展了数据收集。它不仅从机器人轨迹中自动合成推理数据，还从易于获取的无动作人类视频中合成。从人类视频中的合成过程与机器人数据中的类似，只是用HaMeR（一种用于手部关键点和姿态跟踪的方法）替换了运动原语的提取。这项创新促进了在机器人数据和人类视频上的协同训练，拓宽了可用数据的范围。

此外，一些VLM是专门为具身推理训练的，例如Cosmos-Reason1。该模型通过强化学习（特别是GRPO）和在物理常识、具身推理和直观物理学上的监督微调（SFT）进行训练，使其非常适合具身应用。

除了机器人操作，自动驾驶是推理的另一个关键应用领域，因为其环境高度复杂、动态、交互性强，并且对增强安全性的需求至关重要。DriveVLM 在其三个关键模块中应用了CoT：场景描述、场景分析和层级规划。场景描述模块识别驾驶环境中的关键对象。场景分析模块评估它们的特性和对本车的潜在影响。最后，层级规划模块制定了逐步的计划，从语言动作到决策描述，最终到路点。这个要求苛刻的任务需要对多样的对象和场景进行复杂的推断和常识理解，使得使用VLM进行推理特别适合。像AlphaDrive 这样的模型，通过SFT预热后进行基于GRPO的RL探索进行训练，是专门为自动驾驶环境中的推理开发的VLM的例子。

11.3. 优势与局限性 (Advantages and Limitations of Reasoning as Action Tokens)

将推理作为动作词元集成到VLA模型中提供了几个引人注目的优势：弥合指令-动作差距和增强泛化——推理通过引入中间思考步骤，显著地缓解了高级指令和低级可执行动作之间的差距。这使得VLM能够利用其先验知识来处理涉及各种场景和对象的任务，从而增强复杂长时程任务中的泛化能力和性能。例如，ECoT在像“把可食用的物体放进碗里”这样的复杂操作任务中展示了显著的性能提升。这个任务需要复杂的推理，包括识别碗、检查所有现有对象，并基于常识选择可食用的对象。ECoT还显示出对未见对象和场景的增强泛化能力，证明了推理的力量。改进的可解释性和人机交互能力——通过外化智能体的思考过程，推理增强了模型的可解释性。人类可以清晰地审查智能体的决策，将失败追溯到推理链中的特定点，甚至在检测到错误时进行实时干预。这种透明性也促进了人机交互，允许灵活处理不确定的人类输入以进行后续动作，如Inner Monologue能够让用户实时选择对象所示。实现跨实体能力——虽然不同的实体可能有不同的架构和动作词元格式，但完成任务的高级计划通常保持一致。推理可以提取这些抽象的计划，将主要挑战转移到将它们投射到最终的执行上。VLM丰富的先验知识，结合在像OXE这样的跨实体数据集上的训练或微调，可以促进跨各种实体的推理。ECoT验证了其跨实体的能力，表明一个微调的模型可以在新的实体中有效地执行ECoT推理。

尽管有其众多优势，但在具身任务中应用推理仍面临几个局限性：增加的推理时间和降低的执行速度。推理通常需要模型生成一个冗长的思考过程或多个推理步骤，导致高推理时间和低执行速度。这对于具身AI中常见的实时、高频任务是一个关键的约束。虽然像ECoT的异步执行这样的解决方案可以将推理速度提高约40%，但进一步的加速技术至关重要。固定的推理步骤和数据挑战。在当前的实现中，推理步骤经常是手动固定的。虽然这为某些任务提供了稳定性，但它可能限制模型的泛化能力，并阻碍探索可能更优的推理路径。此外，构建高质量、大规模的推理数据集仍然成本高昂且具有挑战性。

从优点和局限性中得出结论，推理特别适合于需要分解为多个子任务的复杂的、长时程的、演绎性的任务，特别是那些由于当前推理速度限制而对执行频率要求相对较低的任务。

展望未来，该领域的工作有望取得激动人心的进展：改进的推理速度和基础模型能力。基础模型的推理速度和内在推理能力的增强是可以预期的。更好的数据收集方法。开发更高效、可扩展的方法来收集高质量的推理数据至关重要。先进的测试时计算。利用测试时计算，即在推理过程中进行额外的计算，具有提升推理模型性能、泛化能力和鲁棒性的潜力。在AlphaDrive和Cosmos-Reason1中探索的技术只是早期的例子。新颖的推理范式设计。人们热切期待在VLA中设计推理模块范式的见解。这可能包括多模态形式的推理，并最终泛化到更广泛的范围，或许是所有的具身任务和机器人实体。

12. 可扩展的数据源 (Scalable Data Sources)

VLA模型的发展严重依赖于学习在多模态观察中定位、可组合以支持技能序列、并可执行以进行具身策略控制的动作词元。有效学习此类表示需要的数据能联合提供视觉-语言定位、精细的动作监督和与实体对齐的传感器-电机控制。然而，单个数据源通常只提供具有互补优势的监督信号。为了解决这个问题，现代VLA框架采用了一种层级多源数据范式，整合了用于视觉-语言定位的网络数据和人类视频，用于技能组合的合成和模拟数据，以及用于实体特定控制定位的真实世界具身数据。由于这三类数据源在数量上减少，而在实体特异性上增加，它们构成了**“数据金字塔”**的底层、中层和顶层。这种多层监督使得跨不同任务、实体和控制模态的可扩展和可迁移的动作词元学习成为可能。表10展示了可扩展数据源的代表性工作。

12.1. 底层：网络数据与人类视频 (Bottom Layer: Web Data and Human Videos)

底层由大规模的网络数据和人类视频数据集组成，以支持视觉-语言定位、世界建模和时间预测。由于网络数据主要由视觉-语言对组成，主要用于增强基础模型的能力，这超出了我们综述的范围，因此我们的讨论主要集中在人类视频上。代表性的人类视频数据集包括Ego4D、EPIC-KITCHENS-100和Something-Something V2。尽管这些数据集不包含可直接用于策略学习的动作标签，但它们捕捉了多样的人类-对象交互、复杂的操作技能和丰富的物理常识，这些都是世界知识的宝贵来源。它们的规模和多样性使得时间视觉编码器的预训练成为可能，并促进了动作词元表示的学习。近期的VLA模型已利用这些数据集来提取轨迹、推断潜层状态转换和生成潜层动作。由此产生的预训练模块提供了时间上定位、语义上结构化和部分具身的先验知识，从而增强了跨任务和实体的下游策略学习。

除了显式的感知内容，这些视频还隐式地编码了视觉观察和物理动作之间的映射。这种隐式结构允许模型获取粗略的可供性先验知识和以观察状态和估计动作为条件的潜层动态。以自我为中心的视角通过近似机器人的视角，减少了实体间的差距，特别是对于操作和导航任务。近期的工作进一步利用弱监督从大规模视频中提取可操作的表示。帧级字幕和时间对齐为生成基于轨迹和目标状态的动作词元提供了间接的监督信号。例如，Magma引入了Set-of-Mark和Trace-of-Mark抽象来在视频流中锚定动作定位。Ego-Exo4D通过第三人称视角增强了以自我为中心的数据，用于3D运动定位，促进了实体迁移。这些方法使VLA模型能够在开放世界环境中构建时间定位和语言条件的策略先验知识。

12.2. 中间层：合成与模拟数据 (Middle Layer: Synthetic and Simulation Data)

为了在人类视频和高成本的真实世界数据收集之间建立一个关键的桥梁，VLA研究广泛利用了模拟和合成数据。这种范式为学习组合技能和鲁棒的控制策略提供了对结构化、以任务为中心的数据的可扩展访问。两种互补的方法是这一方法的核心。

合成数据集生成。 第一种方法是离线合成数据生成。它使用像MimicGen、DexMimicGen和RoboCasa这样的程序化生成流水线，从有限的专家演示集中以编程方式扩充或合成大规模数据集。例如，MimicGen建立了一个范式，即对现有轨迹应用程序化变体，如空间变换和场景重新配置，以增强数据多样性。在此基础上，RoboCasa将此过程扩展到为多样化的操作任务生成超过10万条轨迹，而DexMimicGen则通过结合运动学重定位和接触动力学随机化，将其扩展到复杂的双臂操作。这些方法以低成本显著丰富了数据集的数量和多样性，正如GROOT N1所证明的，它利用了这些数据来训练复杂双臂组装任务的策略。

交互式模拟平台。 与合成数据集互补的第二种方法涉及交互式模拟平台，如robosuite、Habitat、Isaac Gym、Isaac Lab等。在这些模拟器中生成数据遵循几个关键范式。首先，它涉及遥操作，即人类操作员使用VR控制器、键盘或其他接口来控制模拟机器人并执行任务。第二种方法涉及算法求解器，例如经典的运动规划器，它们为具有清晰解决路径的任务生成成功的轨迹。第三，学习到的策略，通常通过RL训练，可以自主地收集大量数据。除了生成机器人轨迹，这些平台还使训练环境本身多样化。程序化内容生成系统地随机化环境因素，包括对象、纹理和光照条件。此外，像AgiBot Digital World这样的平台将逼真的3D资产与高保真物理模拟相结合，促进了对罕见的、易于失败的和复杂的交互场景的探索。

这些环境使得智能体能够通过与基于物理的世界直接交互来学习，促进了大规模的强化学习和模仿学习。模拟对于高风险或安全关键的场景特别有价值，例如工具误用或复杂的接触动力学，这对于具有恢复能力的鲁棒策略至关重要。然而，解决持续存在的“模拟到真实”差距仍然至关重要，其中视觉保真度和物理建模的差异需要进一步在真实世界中进行微调。

12.3. 顶层：真实世界机器人数据 (Top Layer: Real-World Robot Data)

真实世界的机器人数据包含训练VLA模型最关键的资源，为学习物理上定位和可执行的策略提供了直接的监督。与模拟或人类视频不同，真实机器人数据集捕捉了物理环境中固有的复杂动态、传感器噪声和不可预测的变化。这种高保真信息对于弥合“模拟到真实”的差距和灌输关键的实体特定特征（如运动学约束和接触动力学）是不可或缺的。因此，真实世界的数据对于训练生成低级动作的策略至关重要，这要求精确的物理现实主义以成功执行。

VLA研究的一个主要目标是开发能够在不同机器人平台上操作的通用智能体。这推动了大规模、多实体数据集的整理，这些数据集聚合了来自各种机器人形态和环境的经验。例如，OXE从跨越22个机器人的多个数据集中汇集了超过100万个操作片段，促进了具有显著跨实体迁移能力的策略学习。近期的努力进一步丰富了这些集合。例如，RoboMIND独特地包含了负面数据，提供了5000条带有因果原因注释的失败轨迹，以通过对比或纠正机制实现更鲁棒的策略学习。类似地，RH20T进一步提供了多模态信息，包括力-扭矩和音频数据，以支持对物理接触和环境声音进行推理的策略。

与多实体数据集的广泛覆盖范围相反，单实体和特定于任务的数据集提供了用于掌握复杂、专业技能的补充数据。这些数据集对于学习精细操作和长时程任务至关重要。例如，RT-1代表了最早和最著名的收集大规模单实体数据集的努力之一。随后，DROID引入了一个统一的机器人平台，并在全球多个机构部署，研究人员共同收集了一个跨越广泛任务、对象、场景、视角和交互位置的大规模数据集。这种统一而多样的数据促进了可泛化的VLA模型的训练。此外，AgiBot World提供了在Genie-1机器人上跨5个不同领域的100万个片段。对于长时程规划，BridgeData V2包含6万个复杂厨房任务的演示，为学习多步操作中的因果依赖关系提供了监督。像HoNY这样的数据集专注于在非结构化的“野外”家庭环境中捕捉数据，呈现了如对象杂乱和可变光照等挑战。这种数据收集原则也延伸到自动驾驶领域，其中像nuScenes和Waymo Open Dataset-Motion这样的数据集集成了丰富的传感器套件（例如，激光雷达、雷达），以训练安全关键的驾驶策略，通常使用轨迹词元作为主要动作表示。

尽管其不可或缺，但获取真实世界的机器人数据仍然是一个重要的瓶颈，因为成本高昂、操作复杂以及遥操作或便携式运动捕捉设备的速度缓慢。这种可扩展性挑战从根本上塑造了大多数最先进VLA模型的数据策略。一个普遍且有效的范式涉及在丰富的模拟或网络抓取数据上进行大规模预训练，以学习可泛化的视觉、语言和语义表示。随后，模型在较小的、高质量的真实世界数据集上进行微调，以将这些通用表示适应特定的物理实体和任务要求。这种层级方法战略性地平衡了对广泛世界知识的需求和对可靠现实世界执行所需的精确物理定位，有效地缓解了数据稀缺问题，同时最大化了性能。

13. 总体讨论与未来方向 (General Discussions and Future Directions)

前面的章节揭示了，每个类别的动作词元都通过一系列有影响力的论文得到了探索。这些研究揭示了不同动作词元的表达能力，有效地利用了基础模型的优势，并开发了可扩展的数据策略，最终产生了展示出有希望的实证性能的VLA模型。显然，每种类型的动作词元都有其自身的优点和局限性，并且仍处于探索的早期阶段，具有巨大的未来发展潜力。目前，没有单一类型表现出绝对的主导地位或明显的劣势，研究界也尚未就一个主导的动作词元范式达成共识，这使得提出明确的建议具有挑战性。因此，我们在第13.1节中提供了我们对动作词元未来趋势和VLA模型发展的评估。在第13.2节至第13.6节中，我们进一步提出了一系列 genel 的观察和反思，指出了VLA研究中尚未充分探索的领域，以期为未来的方向提供信息和指导。

13.1. 动作词元与VLA模型的趋势 (Trends of Action Tokens and VLA Models)

基于表1中总结的每种词元的优缺点，我们观察到不同的动作词元展现出互补的优势，并且最适合VLA模型内的不同层级。这表明VLA的未来不在于单一的主导词元类型，而在于它们的策略性组合，从而推动了一种层级架构。语言规划和代码在长时程规划和逻辑控制方面提供了独特的优势——这些能力是其他动作词元类型难以替代的——使它们成为顶层的理想选择。对于从这些高级计划派生的子任务，3D可供性、轨迹建模和目标视频预测的组合可以提供精确且可解释的运动表示，使其非常适合中间层。相比之下，语言动作和基于API的代码相对表达能力较弱，通常可以被前三者取代。最后，一个策略模块可以被训练来将这些基于视觉的表示映射为原始动作。

虽然潜层表示具有强大的潜力，但由于当前的训练挑战——特别是在实现适当的粒度、语义全面性和任务中心对齐方面——我们没有将它们包含在我们提出的架构中。这些局限性不易解决，并可能在实际应用中损害可靠性。因此，我们目前更倾向于更明确形式的动作词元，它们通常更容易训练和检查，并提供更强的可解释性和可控性。尽管如此，我们对潜层表示的未来进展及其最终随着领域的演进而被整合保持乐观。

一个直接将子任务映射到原始动作的端到端低级策略提供了根本的可扩展性，尽管它仍然受限于有限的数据可用性。在短期内，上述的层级设计有助于数据收集以实现数据飞轮效应；从长远来看，它可能实现完全的端到端控制器学习，绕过中间词元，直接从子任务预测原始动作。

推理在VLA模型中扮演着一个至关重要的动作词元角色。虽然推理已被纳入当前的VLA模型，但它通常是初步的，并且仅应用于相对简单的任务。正如第2.4节所讨论的，VLA模型中的动作词元扮演着类似于LLM中语言词元的角色。因此，很自然地可以设想VLA模型中的推理过程不是由语言词元构建，而是由动作词元构建。这反映了人类如何解决复杂任务——不仅通过语言规划和反思，还通过物理世界的定位和想象。此外，基于动作词元的推理应该被设计为自适应地利用测试时计算，根据任务复杂性调整其长度，就像在基于语言的推理中通常所做的那样。这种推理应根据需要在整个VLA层级中进行整合，以增强所有其他动作词元的生成，为实现更通用和更像人类的智能提供了一条有希望的路径。

上述分析从动作词元化的角度呈现了我们对VLA模型未来发展的看法。从根本上说，当前动作词元的存在源于基础模型生成和解释它们的能力。随着基础模型的不断演进和新的模态（例如，音频、触觉）变得越来越容易获得，我们预计会出现新的动作词元类型和子类型，这将进一步扩展VLA模型的表达能力和有效性。对所有动作词元的持续研究和深思熟虑的整合，对于充分利用它们的互补优势并向更有能力、通用的具身智能迈进至关重要。

13.2. 从VLA模型到VLA智能体 (From VLA Models to VLA Agents)

一个自然的下一步是有意识地从VLA模型演进到VLA智能体，通过一个以智能体为中心的范式来补充核心能力。虽然当前的VLA模型主要关注学习从视觉-语言输入到动作输出的有效映射，但构建更通用和鲁棒的具身智能可能需要具有全面和集成功能的智能体级系统。大多数现有的VLA模型缺乏整合历史的机制。即使存在，这种上下文通常也仅限于几帧或简单的基于语言的规划。这对于现实世界中的长时程任务是不够的，特别是那些涉及进度跟踪、子任务依赖或在线探索的任务。解决这些挑战需要鲁棒和结构化的记忆、规划和反思机制——这些组件已在更广泛的智能体研究社区中得到广泛研究，并可以有效地集成到VLA中。初步的努力，如RoboOS，代表了朝这个方向迈出的早期一步，尽管当前的设计仍然相对简单。此外，VLA智能体中的规划和在线探索也可以通过整合世界模型的进展而得到实质性增强。

虽然现有的研究通常可以被描述在我们提出的VLA模块和动作词元交错链的框架内，但未来的智能体系统不应局限于线性架构。相反，模块和生成的动作词元应该由智能体自适应地调用和管理，以充分处理信息并生成有效的输出。

最后，向VLA智能体的演进——以及在现实世界环境中部署具身智能体的更广阔愿景——也要求更多地关注多智能体系统和人-机共存，这两者对于未来将机器人融入日常生活都至关重要。

13.3. 从模仿学习到强化学习 (From Imitation Learning to Reinforcement Learning)

我们的第三个观察集中在VLA模型的训练范式上。目前，绝大多数VLA模型都是使用模仿学习进行训练的，这存在几个局限性。这些包括由人类演示者能力施加的内在上限，缺乏目标条件的执行机制，以及难以实现一致、近乎完美的性能。更糟糕的是，人类演示通常是次优的，并且可能由于疲劳、注意力不集中、个人特质以及数据收集设备的技术限制（如传感器不精确和延迟）等因素而缺乏灵巧性。模仿学习的这些局限性自然地引发了反思：人类学习的很大一部分并非仅仅来自观察或指导，而是根本上依赖于亲身实践的试错和自我引导的探索。这为未来的研究指明了一个有希望的方向：应用**强化学习（RL）**来优化VLA模型。通过使模型能够直接从目标反馈中学习并自主探索环境，这种方法可以产生更鲁棒、灵巧和高成功率的行为。因此，强化学习为实现更像人类的学习过程和VLA模型的能力提供了一条途径。

虽然RL在VLA模型中的前景是明确的，但其在现实世界场景中的直接应用面临着重大挑战。在物理世界中部署VLA模型通常会产生很高的重置成本，需要大量的时间和资源在每次试验后重置环境。此外，现实世界环境的低交互效率意味着模型需要大量的交互才能有效学习，这通常是不切实际的。安全问题也很大，因为RL训练期间的探索性动作可能导致机器人或其周围环境的损坏。这些挑战凸显了开发更高效的RL算法的迫切需要，这些算法可以使VLA模型在最少的交互下在真实机器上进行定位。这可能涉及诸如上下文强化学习之类的技术，它利用大型预训练模型通过适应新上下文来学习新任务，数据量有限。

未来研究的另一个关键领域在于通过利用现有的VLM来自动化密集奖励函数的设计。为复杂的机器人任务设计有效的奖励函数是出了名的困难，并且通常需要大量的人工努力和领域专业知识。VLM凭借其对视觉和文本信息的令人印象深刻的理解，具有解释高级任务描述并自动生成精细、密集的奖励信号的潜力，以指导RL智能体成功完成任务。这种方法可以显著减轻奖励工程的负担，加速RL驱动的VLA模型在多样化现实世界应用中的开发和部署。

13.4. 从受限硬件到全灵巧性与多模态 (From Restrictive Hardware to Full Dexterity and Modalities)

当前VLA模型的另一个关键局限性在于其底层的硬件配置。虽然在日常生活中，大多数复杂和精细的操作任务都是用人手完成的，但绝大多数现有的VLA研究仅依赖于简单的夹爪，这严重限制了操作的动作空间和灵巧性。为了向更有能力的VLA模型迈进，未来的研究必须将灵巧手作为一个核心组件来整合。

此外，现有的工作主要集中在三种常见的模态：视觉、语言和动作。然而，这样的传感器配置不足以开发真正通用的智能体。更广泛的感官模态——包括触觉、听觉、嗅觉甚至味觉——对于使智能体能够处理更广泛的现实世界任务并具备通用智能所需的鲁棒性和适应性至关重要。

13.5. 从能力为中心到安全感知 (From Capability-Centric to Safety-Aware)

VLA模型也必须更加重视安全考虑。具身智能不仅继承了数字AI系统中存在的许多对齐和安全挑战，还引入了额外的风险——例如由于其与现实世界的交互而导致的硬件物理损坏甚至对人类的潜在伤害。这些高风险的后果要求将安全视为算法设计中的头等大事。然而，这在当前的研究中仍然是一个未被充分探索的领域，需要进行更系统的调查和主动开发安全感知的方法论。

13.6. 从数据稀缺到数据可扩展性 (From Data Scarcity to Data Scalability)

深度学习的历史反复证明，数据是驱动强大模型发展的“化石燃料”。然而，当前在机器人数据收集方面的努力已经明确表明，在近期内，数据可用性将在几个关键维度上仍然不足。

首先，机器人数据的总体数量严重有限。 与受益于庞大且持续扩展的互联网规模语料库的语言和视觉数据相比，机器人数据必须通过劳动密集型的过程手动收集。尽管社区付出了巨大努力，但可用的机器人数据量仍比视觉-语言数据少几个数量级，并且在短期内不太可能达到可比的水平。事实上，据估计，OXE数据集中的词元总数仅约为大规模语言模型语料库中词元数量的1/200,000，这进一步凸显了机器人数据的稀缺性。

其次，机器人数据缺乏足够的模态覆盖。 大多数现有的数据集仅限于视觉、语言和动作，而其他重要的感官模态，如触觉、听觉、嗅觉和味觉，在很大程度上仍未被代表。由于硬件限制，这些差距在短期内难以填补。

第三，机器人实体是多样化的，并且通常彼此不兼容。 虽然在不同平台上已经收集了大量数据，但这些数据集在各种实体之间是碎片化的，不易共享或重用，这进一步减少了可用数据的数量。

第四，机器人数据的质量通常不足，特别是在涉及灵巧操作的场景中。 现有的灵巧手数据收集设备在精度、响应性和可靠性方面尚未足够先进。因此，为复杂任务获取高质量数据仍然很困难。对于具有力反馈的高自由度手来说，这一挑战更为突出。

由于这些限制，VLA模型（最终可能需要比数字AI系统大得多的数据量）在数据可用性方面面临着一个显著的瓶颈。未来的研究应沿两个关键方向应对这些挑战。一方面，应更好地利用模拟和互联网规模的资源来提供可扩展的监督。另一方面，至关重要的是开发**更通用、可靠、多模态和能够在野外（in-the-wild）**有效操作的数据收集系统。这些努力对于支持VLA模型的持续进步和可扩展性至关重要。

14. 结论 (Conclusion)

本综述将VLA模型定位为通往具身AI的核心途径，并从动作词元化的角度对现有研究进行了全面的回顾。对于每个类别的动作词元，我们系统地考察了代表性的VLA模型，分析了它们的优点和局限性，并强调了未来研究的潜在方向。我们进一步总结了在可扩展数据源方面的主要努力，旨在为正在进行的研究提供信息和支持。最后，立足于VLA发展的现状，我们勾勒了未来的趋势和尚未充分探索的领域，以帮助指导下一阶段的进展。随着视觉和语言基础模型的持续繁荣，VLA的研究正获得强劲的动力并展现出巨大的潜力。我们希望这篇综述有助于阐明该领域的演进，描绘其发展轨迹，并为其成长做出有意义的贡献——最终使我们更接近于实现通用人工智能的追求。

查看全文

http://www.lryc.cn/news/600054.html