当前位置：首页 > news >正文

ECCV-2024 | 指令不够用、大模型来生成！BEVInstructor：基于BEV感知和大模型的视觉语言导航指令生成

news 2025/7/8 7:40:48

作者：Sheng Fan, Rui Liu, Wenguan Wang, and Yi Yang
单位：浙江大学
原文链接：Navigation Instruction Generation with BEV Perception and Large Language Models （https://link.springer.com/chapter/10.1007/978-3-031-72670-5_21）
代码链接：https://github.com/FanScy/BEVInstructor

主要贡献

论文提出BEVInstructor，通过将鸟瞰图（BEV）特征与多模态大模型（MLLMs）结合，显著提高了导航指令生成的性能。
BEV编码器将多视角图像特征转换为BEV网格特征，保留三维几何和对象语义，提供更全面的场景理解。
通过参数高效的提示调优和实例引导的迭代精调策略，BEVInstructor逐步优化指令，生成更准确和详细的导航指令。
实验表明，该方法在R2R、REVERIE和UrbanWalk数据集上均优于现有方法，验证了其在复杂环境中生成高质量导航指令的有效性。

研究背景

研究问题

论文主要解决的问题是如何生成导航指令，使得具身智能体能够描述导航路线。现有的研究直接将2D透视观测序列映射到路线描述，但这种方法忽略了3D环境的几何信息和对象语义。

研究难点

如何有效融合3D几何信息和对象语义以生成准确的导航指令；
如何在零样本情况下利用多模态大模型（MLLMs）生成高质量的导航指令。

相关工作

早期的解决方案依赖于手工制作的规则或模板，缺乏灵活性。
后续研究采用神经网络进行端到端学习，如LSTM和Transformer。
最近的多模态大模型展示了强大的视觉-语言理解和生成能力，但在零样本情况下仍无法完全满足导航指令生成的需求。

研究方法

BEVINSTRUCTOR通过引入BEV特征并结合2D视角特征来编码3D环境的语义和几何信息。视觉嵌入被用作视觉提示，并通过透视-BEV提示调整来实现跨模态对齐。此外，提出了实例引导的迭代细化策略，以逐步提高生成指令的质量。

Perspective-BEV编码器

论文构建了BEV编码器，通过3D检测的监督，将透视特征转换为3D信息。

该编码器使用deformable注意力层来采样图像特征，并通过深度一致性权重来区分不同深度的参考点。

Perspective-BEV融合模块

这是一种参数高效的更新策略，它将3D几何信息融入提示中，以利用MLLMs的跨模态能力。

通过在视觉嵌入序列中插入可学习的嵌入作为透视Perspective-BEV提示来实现。

Perspective-BEV提示调优

为了参数高效更新，提出了Perspective-BEV提示调优方法。

该方法在MLLMs的最后几层插入可学习的嵌入作为提示，并通过自注意力和线性层来调节深度特征。

实例引导的迭代精调

采用了实例引导的迭代精调策略，逐步改进生成的指令。

初始阶段，BEVInstructor输出一系列候选实例词作为初始地标token，然后在模型中结合这些粗粒度地标来细化指令。

这一过程通过多轮迭代实现，以提高指令的质量和相关性。

实验设计

数据集

实验在三个数据集上进行：R2R、REVERIE和UrbanWalk。R2R和REVERIE用于室内场景，UrbanWalk用于室外场景。

评估指标

使用五个标准指标进行评估：BLEU、CIDEr、METEOR、ROUGE和SPICE。其中，SPICE被作为主要指标。

实现细节

BEVInstructor使用PyTorch实现，所有模型在单台机器上使用2个NVIDIA A40 GPU训练。多模态大模型使用LLaMA-7B初始化，具有32层。

结果与分析

定量结果

在R2R、REVERIE和UrbanWalk数据集上，BEVINSTRUCTOR在所有指标上都取得了最佳性能。
在R2R val seen和val unseen上，BEVINSTRUCTOR分别在SPICE上提高了1.9%和1.4%，在CIDEr上提高了4.6%和3.0%。

在REVERIE val seen和val unseen上，BEVINSTRUCTOR在SPICE上分别提高了7.0%和4.2%，在CIDEr上分别提高了12.6%和8.3%。

在UrbanWalk测试集上，BEVINSTRUCTOR在SPICE上提高了11.3%，在Bleu-4上提高了12.5%，在Meteor上提高了7.3%，在Rouge上提高了13.1%。

定性结果

在REVERIE数据集上，BEVINSTRUCTOR在识别与动作视图相关的场景和对象方面表现出增强的能力，并在细化阶段将这些元素明确地纳入指令中。

诊断实验

通过一系列消融研究评估了BEVINSTRUCTOR的关键模块的有效性，证明了各个组件的互补性和整体设计的有效性。

指令质量分析

通过与HAMT和DUET模型的比较，验证了BEVINSTRUCTOR生成的指令在实际视觉-语言导航任务中的路径引导能力和数据增强效果。

总结

BEVInstructor通过结合BEV特征和多模态大模型，显著提高了3D感知和语言能力。

该方法在多个数据集上均表现出色，验证了其生成高质量导航指令的有效性。

http://www.lryc.cn/news/509784.html

相关文章：

【UE5.3.2 】引擎中安装RiderLink插件

【HarmonyOS 5.0】第十二篇-ArkUI公共属性(一)

京准电钟解读，NTP网络授时服务器如何提升DCS系统效率

4.银河麒麟V10(ARM) 离线安装 MySQL

Redis四种模式在Spring Boot框架下的配置

Golang的性能监控指标

基于GAN和DenseNett组合的调制信号分类网络(源码)

uniapp 项目基础搭建（vue2）

中关村科金外呼机器人智能沟通破解营销难题

【Linux】处理用户输入

flask后端开发（1）：第一个Flask项目

Highcharts 饼图：数据可视化利器

黑马商城项目—服务注册、服务发现

【ES6复习笔记】Map（14）

yii2 手动添加 phpoffice\phpexcel

使用 AI 辅助开发一个开源 IP 信息查询工具：一

HNUST-数据分析技术课堂实验

P3456 [POI2007] GRZ-Ridges and Valleys BFS-连通块思想

WhisperKit: Android 端测试 Whisper -- Android手机(Qualcomm GPU)部署音频大模型

Clickhouse（Centos）

Yolo11改进策略：Block改进|使用FastVit的RepMixerBlock改进Yolo11，重参数重构助力Yolo11涨点（全网首发）

微信小程序-基于Vant Weapp UI 组件库的Area 省市区选择

NIO(New IO)和BIO(Blocking IO)的区别

ROS1入门教程6：复杂行为处理

碰撞检测算法之闵可夫斯基差集法(Minkowski Difference)

【唐叔学算法】第18天：解密选择排序的双重魅力-直接选择排序与堆排序的Java实现及性能剖析

2008-2020年各省技术服务水平相关指标数据

机器学习DAY4续：梯度提升与 XGBoost （完）

ML-Agents：训练配置文件（一）