当前位置：首页 > news >正文

LoHoVLA技术：让机器人像人类一样思考与行动的统一框架

news 2025/9/1 13:53:04

欢迎来到每日前沿技术分享专栏。

我们今天要来给大家分享的是LoHoVLA模型。

我们让机器人打扫房间时，它需要先理解 “打扫” 是一个包含多个步骤的长期任务 —— 捡起垃圾、整理物品、擦拭桌面等，而不是一个简单的单一动作。

但现有的机器人系统在处理这类长期具身任务时，往往面临着 “想得不明白” 和 “做得不协调” 的双重困境。

最近，来自复旦大学、上海科技大学和上海交通大学的研究团队提出了 LoHoVLA—— 一个统一的视觉 - 语言 - 动作模型，为解决长期具身任务中的规划与控制难题提供了全新思路。

这篇工作不仅提出了创新的模型架构，还构建了专门的数据集 LoHoSet，通过实验证明了统一框架在长期任务中的显著优势。让我们一起深入探讨，LoHoVLA 如何让机器人像人类一样，既有全局规划能力，又能精准执行每一个动作。

工作链接：https://arxiv.org/pdf/2506.00411

一、长期具身任务：机器人智能的 “进阶考试”

想象一下，你让家里的扫地机器人 “打扫客厅”，这看似简单的指令背后，其实包含了一系列复杂的步骤：首先需要识别哪些区域有垃圾，然后规划移动路径，避开障碍物，调整吸尘力度，甚至可能需要先推开挡路的拖鞋。这类需要多步骤完成的任务，就是所谓的长期具身任务（Long-Horizon Embodied Tasks），它们的特点是目标抽象、步骤复杂，且需要在动态环境中不断调整策略。

1、现有方法的 “双重困境”

当前处理这类任务的方法主要分为两大流派：Vision-Language-Action（VLA）模型和分层架构（Hierarchical Architectures），但它们各自存在明显短板：

VLA 模型的 “短视症”：这类模型擅长从视觉和语言输入直接生成动作，就像一个反应迅速但缺乏深思的执行者。它们就像拿到 “打扫客厅” 指令后，直接就开始移动吸尘器，却没有先规划 “先清理哪个区域”“如何处理障碍物” 等步骤。论文中提到，Vanilla VLA 在 “将同色积木按大小堆叠” 任务上的成功率几乎为零，因为它无法分解出 “先找大积木做底座”“再找小积木叠上去” 这样的子任务。
分层架构的 “沟通障碍”：为了解决 VLA 的规划问题，分层架构将任务拆分为高层规划和底层控制两个模块，就像一个团队中 “制定计划的指挥官” 和 “执行命令的士兵”。但这种分工常常导致 “政令不通”—— 高层规划出的子任务可能不符合底层执行能力，底层执行的误差也无法有效反馈给高层。比如在 LoHoRavens 基准测试中，分层架构在 “将偶数积木放入同色区域” 任务上的成功率不到 10%，因为规划与控制模块之间的协调出现了严重问题。

2、为什么统一框架是关键？

长期具身任务的本质，是需要将抽象目标转化为具体动作序列，这个过程既需要 “高屋建瓴” 的规划能力，又需要 “精雕细琢” 的控制能力。现有的 VLA 和分层架构之所以效果不佳，核心原因在于它们将 “思考” 和 “行动” 割裂开来：

VLA 模型试图直接从目标跳到动作，跳过了中间的规划步骤，就像一个人不思考步骤就直接动手做事，容易手忙脚乱；
分层架构虽然区分了规划和执行，但两个模块使用不同的表示空间，就像说不同语言的人合作，沟通成本极高。

因此，我们需要一个能 “一边想一边做” 的统一框架 —— 在思考子任务的同时考虑执行可行性，在执行动作时反馈调整思考方向，这正是 LoHoVLA 的核心设计理念。

二、LoHoVLA：让机器人 “想得全、做得准” 的统一框架

LoHoVLA 的全称是 “Long-Horizon Vision-Language-Action”，从名字就能看出它的使命：处理长期具身任务的视觉 - 语言 - 动作统一模型。它就像给机器人配备了一个 “智能大脑”，既能理解抽象目标、分解子任务，又能根据视觉反馈精准控制动作，还能在遇到问题时灵活调整策略。

2.1 核心设计一：共享表示空间的 “全脑思考”

LoHoVLA 的第一个创新点，是使用大型预训练视觉语言模型（VLM）作为 backbone，让规划和控制共享同一套 “思维语言”。这就像一个人用同一种语言思考和说话，避免了 “翻译” 造成的信息损失。

backbone 的选择：团队选择了 PaliGemma 作为基础模型，它就像一个博学的 “知识库”，不仅理解视觉场景（比如能识别 “红色积木”“蓝色碗”），还掌握语言语义（比如理解 “堆叠”“匹配” 等动作概念）。通过预训练，PaliGemma 已经具备了对世界的基础认知，这为 LoHoVLA 的规划能力奠定了基础。

点击每日前沿技术分享：LoHoVLA技术：让机器人像人类一样思考与行动的统一框架阅读全文。

查看全文

http://www.lryc.cn/news/574253.html