当前位置: 首页 > news >正文

LoHoVLA技术:让机器人像人类一样思考与行动的统一框架

欢迎来到每日前沿技术分享专栏。

我们今天要来给大家分享的是LoHoVLA模型。


我们让机器人打扫房间时,它需要先理解 “打扫” 是一个包含多个步骤的长期任务 —— 捡起垃圾、整理物品、擦拭桌面等,而不是一个简单的单一动作。

但现有的机器人系统在处理这类长期具身任务时,往往面临着 “想得不明白” 和 “做得不协调” 的双重困境。

最近,来自复旦大学、上海科技大学和上海交通大学的研究团队提出了 LoHoVLA—— 一个统一的视觉 - 语言 - 动作模型,为解决长期具身任务中的规划与控制难题提供了全新思路

image.png

这篇工作不仅提出了创新的模型架构,还构建了专门的数据集 LoHoSet,通过实验证明了统一框架在长期任务中的显著优势。让我们一起深入探讨,LoHoVLA 如何让机器人像人类一样,既有全局规划能力,又能精准执行每一个动作。

工作链接:https://arxiv.org/pdf/2506.00411

一、长期具身任务:机器人智能的 “进阶考试”

想象一下,你让家里的扫地机器人 “打扫客厅”,这看似简单的指令背后,其实包含了一系列复杂的步骤:首先需要识别哪些区域有垃圾,然后规划移动路径,避开障碍物,调整吸尘力度,甚至可能需要先推开挡路的拖鞋。这类需要多步骤完成的任务,就是所谓的长期具身任务(Long-Horizon Embodied Tasks),它们的特点是目标抽象、步骤复杂,且需要在动态环境中不断调整策略。

1、现有方法的 “双重困境”

当前处理这类任务的方法主要分为两大流派:Vision-Language-Action(VLA)模型分层架构(Hierarchical Architectures),但它们各自存在明显短板:

  • VLA 模型的 “短视症”:这类模型擅长从视觉和语言输入直接生成动作,就像一个反应迅速但缺乏深思的执行者。它们就像拿到 “打扫客厅” 指令后,直接就开始移动吸尘器,却没有先规划 “先清理哪个区域”“如何处理障碍物” 等步骤。论文中提到,Vanilla VLA 在 “将同色积木按大小堆叠” 任务上的成功率几乎为零,因为它无法分解出 “先找大积木做底座”“再找小积木叠上去” 这样的子任务。

  • 分层架构的 “沟通障碍”:为了解决 VLA 的规划问题,分层架构将任务拆分为高层规划和底层控制两个模块,就像一个团队中 “制定计划的指挥官” 和 “执行命令的士兵”。但这种分工常常导致 “政令不通”—— 高层规划出的子任务可能不符合底层执行能力,底层执行的误差也无法有效反馈给高层。比如在 LoHoRavens 基准测试中,分层架构在 “将偶数积木放入同色区域” 任务上的成功率不到 10%,因为规划与控制模块之间的协调出现了严重问题

2、为什么统一框架是关键?

长期具身任务的本质,是需要将抽象目标转化为具体动作序列,这个过程既需要 “高屋建瓴” 的规划能力,又需要 “精雕细琢” 的控制能力。现有的 VLA 和分层架构之所以效果不佳,核心原因在于它们将 “思考” 和 “行动” 割裂开来:

  • VLA 模型试图直接从目标跳到动作,跳过了中间的规划步骤,就像一个人不思考步骤就直接动手做事,容易手忙脚乱;

  • 分层架构虽然区分了规划和执行,但两个模块使用不同的表示空间,就像说不同语言的人合作,沟通成本极高。

因此,我们需要一个能 “一边想一边做” 的统一框架 —— 在思考子任务的同时考虑执行可行性,在执行动作时反馈调整思考方向,这正是 LoHoVLA 的核心设计理念。

二、LoHoVLA:让机器人 “想得全、做得准” 的统一框架

LoHoVLA 的全称是 “Long-Horizon Vision-Language-Action”,从名字就能看出它的使命:处理长期具身任务的视觉 - 语言 - 动作统一模型。它就像给机器人配备了一个 “智能大脑”,既能理解抽象目标、分解子任务,又能根据视觉反馈精准控制动作,还能在遇到问题时灵活调整策略。

image.png

2.1 核心设计一:共享表示空间的 “全脑思考”

LoHoVLA 的第一个创新点,是使用大型预训练视觉语言模型(VLM)作为 backbone,让规划和控制共享同一套 “思维语言”。这就像一个人用同一种语言思考和说话,避免了 “翻译” 造成的信息损失。

  • backbone 的选择:团队选择了 PaliGemma 作为基础模型,它就像一个博学的 “知识库”,不仅理解视觉场景(比如能识别 “红色积木”“蓝色碗”),还掌握语言语义(比如理解 “堆叠”“匹配” 等动作概念)。通过预训练,PaliGemma 已经具备了对世界的基础认知,这为 LoHoVLA 的规划能力奠定了基础。

点击每日前沿技术分享:LoHoVLA技术:让机器人像人类一样思考与行动的统一框架阅读全文。

http://www.lryc.cn/news/574253.html

相关文章:

  • AI 智能体架构设计3阶段演进和3大关键技术对比剖析
  • 硬件工程师笔试面试高频考点汇总——(2025版)
  • 最近小峰一直在忙国际化项目,确实有点分身乏术... [特殊字符] 不过! 我正紧锣密鼓准备一系列干货文章/深度解析
  • SpringBoot中使用表单数据有效性检验
  • Ollama 在LangChain中的应用 Python环境
  • RS485
  • Linux运维新人自用笔记(inode索引节点、删除文件原理、raid10、lvm逻辑卷)
  • Python基础(​​FAISS​和​​Chroma​)
  • 十四天机器学习入门——决策树与随机森林:从零构建智慧决策模型
  • 本地文件深度交互新玩法:Obsidian Copilot的深度开发
  • 从Java API调用者到架构思考:我的Elasticsearch认知升级之路
  • RealSense 相机 | 读取IMU | 解决权限问题 | 提供示例程序
  • 用于算法性能预测的 GNN 框架
  • python基于微信小程序的广西文化传承系统
  • C#采集电脑硬件(CPU、GPU、硬盘、内存等)温度和使用状况
  • 【Java高频面试问题】数据结构篇
  • 一键内网穿透,无需域名和服务器,自动https访问
  • 阿里云无影:开启云端办公娱乐新时代
  • 布瑞琳BRANEW:高端洗护领航者,铸就品质生活新典范
  • 异步IO框架io_uring实现TCP服务器
  • 程序包androidx.fragment.app不存在 import androidx.fragment.app
  • 智慧园区数字孪生最佳交付实践:沉淀可复用场景模板,实现快速部署与定制化开发
  • 【每天一个知识点】CITE-seq 技术
  • 后端开发两个月实习总结
  • 深度学习:PyTorch卷积神经网络(CNN)之图像入门
  • 记录MySQL中功能强大的函数使用
  • 构建高性能网络服务:从Reactor模式到现代服务器架构设计
  • 【实时Linux实战系列】实时任务优先级的设置
  • leetcode83.删除排序链表中的重复元素
  • js逻辑:【增量更新机制】