RoboRefer:面向机器人视觉-语言模型推理的空间参考
25年6月来自北航、北大和北京智源的论文“RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics”。
空间参考是实体机器人与三维物理世界交互的基本能力。然而,即使有了强大的预训练视觉-语言模型 (VLM),近期方法仍然无法准确理解复杂的三维场景并动态推理指令-指示的交互位置。为此,RoboRefer,是一个具有 3D 感知能力的 VLM,它首先通过监督微调 (SFT) 集成一个解耦但专用的深度编码器,实现精确的空间理解。此外,RoboRefer 通过强化微调 (RFT) 推进广义多步空间推理,并使用针对空间参考任务定制的度量-敏感过程奖励函数。为了支持 SFT 和 RFT 训练,引入 RefSpatial,一个包含 2000 万个 QA 对(2 倍先验)的大规模数据集,涵盖 31 种空间关系(vs. 15 种先验),并支持复杂的推理过程(最多 5 个步骤)。此外,引入 RefSpatial-Bench,一个极具挑战性的基准测试,填补评估多步推理空间参考能力的空白。实验表明,经 SFT 训练的 RoboRefer 达到了最佳的空间理解水平,平均成功率高达 89.6%。经 RFT 训练的 RoboRefer 的表现远超所有其他基准测试,在 RefSpatial-Bench 上的平均准确率甚至比 Gemini-2.5-Pro 高出 17.4%。值得一提的是,RoboRefer 可以与各种控制策略集成,在复杂现实场景中跨各种机器人(例如 UR5、G1 类人机器人)执行长视界动态任务。
如图所示复杂环境中的空间参考:
视觉语言模型 (VLM) 进行空间理解。空间理解 [16–23] 侧重于以物体为中心的属性(例如位置、方向)和物体间关系(例如距离、方向),而空间推理 [24–35] 则基于此类信息进行更高层次的推理。VLM 的最新进展 [8–11,36–51] 通过两种范式增强了这两种能力:(1) 基于工具的方法 [7,14,52–56],将 VLM 与视觉基础模型 [57–65] 相结合,以提取和推理空间线索;(2) 数据驱动的方法,使用伪三维标注 [1,6]、真实三维数据集 [2,3] 或模拟数据 [4,66] 对 VLM 进行微调。然而,现有数据集缺乏对空间指涉任务至关重要的多步骤推理标注,并且仍然缺乏评估此类能力的基准。
机器人的VLM 参考。参考,也称为参考表达理解 (REC) [67–74],利用明确的描述来定位图像中特定的区域/点,并通过 VLM 取得了长足的进步 [75–80]。与处理模糊或多重参考的短语定位 [81–83] 和广义视觉落地[84–88] 不同,REC 专注于单一目标——这对于机器人技术至关重要,尤其是在需要精确识别物体和目标位置的拾取和放置任务中 [89–93]。二维 REC 依赖于物体属性(例如颜色)和图像平面定位(例如图像右上角),而现实世界中的机器人场景需要三维空间推理来进行定位(例如,“近” vs “远”)。尽管像 RoboPoint [5] 这样的成果 [94–96] 通过图像融入了基本的空间线索来满足此类期望,但它们往往难以应对复杂的环境和空间参考所需的指令。
VLM 的强化微调。强化微调 (RFT) [97–101] 是一种后训练策略,它通过反馈使模型与人类偏好或特定目标保持一致,是对 SFT [102, 103] 的补充,SFT 使用面向任务的数据来调整预训练模型。基于 LLM 的推理 [101, 104, 105] 的最新进展已将 VLM 中的 RL 转向视觉推理 [106–109]、落地 [110–112]、分割 [113] 和轨迹预测 [114]。然而,大多数方法仅依赖于二维感知,这限制了它们处理需要三维空间推理的空间指涉任务的能力。
问题表述
空间参考定义为:给定来自传感器的视觉输入 O(例如 RGB 或 RGB-D)和文本指令 L,预测图像空间中的单个二维点 (x, y) 以指定目标位置或目的地。该指令不仅编码单步空间属性,例如大小(例如大、小)、位置(例如相对位置或序数位置)、方向(例如正面)和空间关系(例如距离、方向),还需要多步空间推理。例如,“将物体放置在笔筒和键盘之间,与杯子的标志对齐”,由于多个空间约束的组合而变得更加复杂。
与基于区域的二维参考方法 [75, 80, 88] 不同,这种基于点的公式更适合机器人技术,并且更具泛化性。与二维框相比,点可以通过深度自然地映射到三维坐标,从而提供精确的空间锚点。通过利用预测点进行导航、抓取或放置,该方案支持多任务学习和执行。此外,它能够在遮挡场景下准确定位可见的物体部分,而二维边框通常包含不相关的物体。
RoboRefer:一种用于空间参考的 3D 感知推理 VLM
VLM 架构。如图所示,RoboRefer 使用独立的 RGB 和深度编码器提取特征,然后通过投影器将特征与 LLM 对齐,用于 VQA 或点预测。由于 3D 线索对于空间理解至关重要,因此仅基于 RGB 预训练的 2D VLM 缺乏准确的 3D 感知。近期方法 [1, 3, 14] 通过将深度视为类似图像的模态并共享 RGB 编码器来避免显式的 3D 表示,但这会导致模态干扰,降低预训练编码器的性能,并需要额外的 RGB 协同训练来补偿。
为了解决这个问题,提出一种简单而有效的方法:一个专用的深度编码器和投影器,由其对应的 RGB 编码器和投影器初始化。值得注意的是,在 RGB 和 RGB-D 联合训练期间,图像编码器不受深度输入的影响,而深度编码器则独立更新。这种设计不仅避免了模态干扰,并在无需进行大量纯 RGB 联合训练的情况下保持了通用的 VQA 性能,而且还通过增强对深度线索(例如距离、远近关系以及基于视角的尺寸变化)的感知来提升空间理解能力。
监督微调。采用 NVILA [37] 作为基础 VLM;然而,其仅限二维的预训练限制了空间理解。为了解决这个问题,提出一个两步 SFT。(1) 深度对齐。在上图中,首先训练一个深度投影器,利用 RefSpatial 的 RGB-D 注释,将新引入的深度空间与文本空间对齐。在此步骤中,仅更新深度投影器。(2) 空间理解增强。对 RefSpatial 上的所有参数进行了微调,包括单步细粒度注释和具有明确推理过程的多步推理数据,以及其他指令跟踪数据集 [74, 115, 116]。因此,该模型在 RGB 和 RGB-D 输入上进行联合优化,并分别更新图像和深度编码器。这一过程不仅通过新的深度模态增强单步空间理解,还通过显式推理过程增强基于数据的隐式多步推理,为后续的 RFT 阶段提供“冷启动”。因此,这个经 SFT 训练的模型在多步空间参考任务中表现出了更佳的能力。
强化微调。虽然 SFT 使用具有精确推理能力的数据,但它倾向于记忆答案,而不是泛化到新的空间约束。因此,利用来自 RefSpatial 的多步推理数据,使用组相对策略优化 (GRPO [101]) 设计后续的 RFT 阶段。为了引导 RFT 进行更准确的点预测,首先定义两个结果奖励函数(即只关心输出答案是否正确):(1) 结果格式奖励 (ROF),用于结构化推理和清晰度; (2)点 L1 奖励(RP),如果最终预测落在真实点附近的特定范围内,则得分为 1,否则为 0。为了提高中间推理精度,利用来自 RefSpatial 的关键步骤感知注释,并设计专门的指标-敏感过程奖励函数:(1)过程格式奖励(R_PF),强制执行格式“[感知类型] [目标对象]:”;(2)准确度奖励(R_Acc),适用于关键步骤感知注释中包含的步骤。对于每个相关步骤,根据感知类型使用特定指标来测量预测误差(例如,真实点和预测点之间位置的 L1 距离)。值得注意的是,这种设计是顺序不变的,并且不将推理轨迹限制在固定序列中。从当前策略(从 SFT 模型初始化)中采样 N 个响应 {a_1, …, a_N } 以鼓励探索。每个响应都会获得一个组合奖励 (r_i = R_OF (a_i) + R_P (a_i) + α R_PF (a_i) + α R_Acc(a_i)),其中 α 设为 0.25。对每个组内的奖励进行归一化,计算相对优势 (A_i = (r_i −mean({r_j}))/std({r_j})),然后使用相对优势更新策略,强化高质量响应并抑制次优响应。KL 散度正则化项通过将更新限制在参考策略附近来稳定更新。值得注意的是,SFT 初始化提供了强大的先验,能够快速适应输出格式,并利用从 SFT 学到的空间理解支持准确的分步空间推理。上图显示,经 RFT 训练的模型能够很好地推广到 4 步的空间参考等任务,逐步处理复杂的空间关系,并得出精确的点预测。
RefSpatial 数据集
概述
RefSpatial 是一个综合性的数据集,整合了来自 OpenImages [117] 的 2D 图像、来自 CA-1M [118] 的 3D 实体化视频以及来自 Infinigen [119] 的模拟场景(使用 Objaverse [120] 资源)(参见下图 (a))。
RefSpatial 的主要特点是:(1) 细粒度标注。先前的空间数据集 [2, 3] 通过将每个类别限制为每个场景的单个实例来简化目标引用,而 RefSpatial 包含同一类别的多个目标。此外,每个目标都带有分层标题标注——从宽泛的类别(例如“杯子”)到精确的空间指称(例如“左边第三个杯子”、“离摄像头最近的杯子”)——从而能够在杂乱的环境中实现明确的空间指称。(2) 多维性。除了基本的空间概念、关系、点坐标和点深度预测之外,该数据集还通过注释详细的推理过程(所有模拟数据)来支持多步骤空间推理,从而解决了现有数据集的局限性。(3)高质量。严格过滤数据以保持质量。保留 466k 个包含文本可引用、空间相关目标的 OpenImage(低于 1.7M);从 CA-1M 中采样 100k 个帧,其中包含文本可识别的 3D 边框(低于 2M);并手动检查和注释 3k 个带有语义方向标签的 Objaverse-LVIS 资产(低于 46k)。(4)大规模。数据集包含 2.5M 个样本和 20M 个 QA 对,涵盖定性 VQA、对象属性/关系的定量查询以及点坐标预测(上图 (b) 所示)。(5)丰富的多样性。 RefSpatial 涵盖室内和室外场景,涵盖常见的具身场景,并集成了 31 种不同的空间关系(见上图 ©),从而在 SFT 过程中促进精确的空间理解。(6)易于扩展。流程使用多种来源无缝扩展空间引用数据,包括 2D 图像、带边界框的 3D 视频和模拟资源。
数据配方
在上图中,展示了数据集配方,该配方逐步集成了 2D、3D 和模拟数据,使通用 VLM 能够适应空间引用任务,从而增强自下而上的空间理解和推理能力。(1)2D Web 图像旨在赋予模型核心空间概念和跨室内外场景的全面深度感知。为了缓解室内外场景之间的深度尺度和类别差异,利用大规模、多样化的 2D Web 图像数据集 OpenImage [117]。然而,直接提取 3D 感知的空间信息具有挑战性。受前人研究 [1, 35] 的启发,将二维图像转换为伪三维场景图。具体而言,在进行高质量滤波(从 1.7M 到 466K 幅图像)后,用 Qwen2.5-VL [11] 和一种用于生成分层区域字幕的启发式方法进一步增强数据,从而同时捕获粗略的标签和细粒度的空间参考,从而使方法区别于以往的方法。然后,通过目标检测/分割、深度估计和相机本征估计构建场景图,以目标字幕为节点,空间关系为边。最后,通过基于模板或 LLM 的方法生成问答对,并辅以从带注释的字幕中衍生的目标位置问答。(2)3D 嵌入视频希望为模型提供对室内场景的聚焦空间理解,并对空间关系和概念提供更细粒度的感知。因此,利用了标注丰富的 CA-1M [118]。经过细粒度过滤(从 2M 帧到 10 万帧),构建具有更加多样化空间关系的 3D 场景图,与 2D 方法相比,这得益于精确的 3D 边框。此外,生成自上而下的占用图,其中编码物体的位置、方向和度量距离(例如,“椅子右侧 10 厘米”),从而能够进行精确的空间参考放置。(3)模拟数据通过空间推理为模型提供了多步参考功能。虽然 2D 和 3D 数据支持单步空间理解,但它们对于通过推理进行多步空间参考的可扩展性较差。因此,利用程序化生成的场景布局 [119],使用手动验证的素材 [120](从 46k 到 3k),并带有语义方向注释 [7]。任务的设计旨在促进多步空间参考并生成相应的数据。假设生成的代码反映最佳推理,每一行都翻译成文本形式,中间结果填充成结构化格式(例如坐标、距离),产生带有推理注释的 QA 对。
训练细节
采用 NVILA [37] (2B/8B) 作为基础模型,并应用 SFT 算法得到 RoboRefer-SFT。由于计算限制,RFT 算法仅适用于 2B 模型,从而得到 RoboRefer-RFT。SFT 算法分为两个步骤:第一步仅使用 RefSpatial;第二步使用 RefSpatial、指令调优(大小为 RefSpatial QA 的二十分之一)[115, 116] 和参考数据集 [74] 进行训练。值得注意的是,在第二步中,RefSpatial 算法与 RGB 和 RGB-D 输入一起被复用,以强制图像编码器学习超越深度线索的空间理解能力。因此,该模型支持纯 RGB 和 RGB-D 推理,并可选择通过相对深度估计模型 [59] 进行深度推断。最后,RFT 阶段使用来自 RefSpatial 的多步推理数据进行训练。
RoboRefer 的实现细节如下。
架构
采用 NVILA [37] 作为基础模型,包含一个视觉编码器、一个 LLM 和一个多模态投影器。
视觉编码器。用与 NVILA [37] 的 siglip-so400m-patch14-448 [62] 相同的图像编码器,支持 448 × 448 分辨率,从而获得更丰富的视觉细节。该图像编码器并非简单地将图像调整到固定分辨率并生成相同数量的 tokens,而是以动态分辨率处理输入,通过更精细的块划分,从更高分辨率的图像中生成更多视觉 tokens。这实现了细粒度的视觉语言理解,这对于像点预测这样需要超越 VQA 的详细感知的任务至关重要。还集成一个专用的深度编码器,其结构与图像编码器镜像,并用其权重进行初始化。它将相对深度图编码为特殊图像,提供空间线索以增强 3D 理解。
大语言模型。采用 NVILA [37] 的 Qwen2 LLM 主干模型,该模型在监督训练过程中已使用大量数据进行全面微调。这赋予模型丰富的视觉知识,有助于后续的 3D 空间理解和推理任务。
多模态投影器。为了对齐多模态表征(例如,图像到语言,深度到语言),使用与 NVILA [37] 相同的线性连接器,其性能优于 Q-Former,从而使 LLM 能够专注于视觉理解并提升泛化能力。图像和深度嵌入使用独立的连接器,确保特定模态的处理,并避免跨模态干扰。
训练数据
重点介绍每个阶段使用的训练数据,包括每个数据集的样本数量和总数。
SFT 阶段。具体来说,在 SFT 阶段的第一步,即深度对齐,我用包含 2.5M 个样本的 RefSpatial (RGB-D) 数据集训练深度投影器,以对齐深度和语言空间。为了提高训练效率,对多轮对话进行切片(每个样本最多 15 轮),经过后处理后获得 3.4M 个样本用于训练模型。在第二步,即通过全参微调增强空间理解时,同时使用 RefSpatial (RGB) 和 RefSpatial (RGB-D) 数据集,切片后获得 6.8M 个样本。为了进一步提升指令跟随和参考能力加入了辅助数据集:965,000 个样本来自指令调优数据(LLaVA- 1.5 [116]、LRV [115]),321,000 个样本来自参考数据集(RefCOCO/+/g [74]),176,000 个样本来自 SAT [4] 基准训练集,以及 127,000 个样本来自 EmbSpatial [22] 基准训练集。这些新增数据集有助于弥合 RefSpatial 和基准样式查询之间的分布差距。切片后,此阶段使用的样本总数达到 8.5M。
RFT 阶段。在 RFT 阶段,用标注了详细推理过程(包括关键中间步骤和最终答案)的 RefSpatial 数据训练模型。为了确保训练效率和有效学习,用中等难度的样本(通常涉及三个推理步骤),最终形成一个包含 100,000 个样本的数据集。