当前位置: 首页 > news >正文

【佳佳怪文献分享】MVFusion: 利用语义对齐的多视角 3D 物体检测雷达和相机融合

标题:MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion

作者:Zizhang Wu , Guilian Chen , Yuanzhu Gan , Lei Wang , Jian Pu

来源:2023 IEEE International Conference on Robotics and Automation (ICRA 2023)

这是佳佳怪分享的第2篇文章

摘要

多视角雷达-摄像头融合三维物体检测为自动驾驶提供了更远的检测范围和更多有用的功能,尤其是在恶劣天气下。目前的雷达-相机融合方法提供了多种将雷达信息与相机数据融合的设计。然而,这些融合方法通常采用多模态特征之间的直接串联操作,忽略了雷达特征的语义一致性和模态之间的充分相关性。在本文中,我们提出了一种新颖的多视图雷达-摄像机融合方法 MVFusion,以实现雷达特征的语义对齐并增强跨模态信息交互。为此,我们通过语义对齐雷达编码器(SARE)将语义对齐注入雷达特征,生成图像引导的雷达特征。然后,我们提出了雷达引导融合变换器(RGFT)来融合雷达和图像特征,通过交叉注意机制从全局范围加强两种模态的相关性。大量实验表明 MVFusion 在 nuScenes 数据集上实现了最先进的性能(51.7% NDS 和 45.3% mAP)。我们将在论文发表后公布我们的代码和训练有素的网络。

在这里插入图片描述
图 1. 基于摄像头的方法 [13] 和我们的 MVFusion 的探测对比。(a) 图像和雷达输入,雷达点的颜色表示与雷达的距离。(b) 3D 检测地面实况。© 基于摄像头的方法 [13] 的结果,该方法未能检测到远处的汽车和近处的行人。(d) 我们的方法利用语义对齐的雷达信息进行了充分的雷达-摄像机融合,成功检测到了丢失的汽车和行人。

在这里插入图片描述
图 2. 我们提出的 MVFusion 概览,主要由五个部分组成:雷达预处理模块、图像编码器、语义对齐雷达编码器(SARE)、雷达引导融合变换器(RGFT)和检测网络。SARE 将语义配准注入雷达特征,而 RGFT 则 RGFT 融合雷达和图像特征,旨在从全局范围充分促进两种模态的互动。多视角雷达表示法参考了文献[15]。

在这里插入图片描述
图 3. 雷达特征提取器(RFE)的结构图,其中包括 用于稀疏雷达特征的残差特征卷积块。
在这里插入图片描述
图 4. 图像制导雷达变换器(IGRT)概览。IGRT 为雷达特征分配可学习的位置编码,以通过多头自注意机制进一步增强 空间信息。
在这里插入图片描述
图 5. 雷达引导融合变换器(RGFT)概述。RGFT 融合了高级雷达和图像特征,在交叉注意机制下实现了充分的相关性。
在这里插入图片描述
图 6. 我们的方法与之前的方法 [13] 的环视检测结果对比。我们用 黄色圆圈表示我们的方法,蓝色圆圈表示 [13] 的方法。我们的方法在不同视角下都能实现正确的目标检测,而我们的方法在不同视角下都能实现充分的目标检测。在不同视角下,我们的方法都能正确检测到物体,其中语义对齐的雷达特征与视觉特征之间充分的雷达-相机互动为三维检测提供了更多有用的线索。
在这里插入图片描述
表1. 在 nuscenes 测试集上使用不同模态的单帧最先进作品比较。表示采用 dd3d [42] 预训练 v2-99 [43] 主干网
在这里插入图片描述
表2. 采用不同骨干网和模态对 nuscenes val 集进行的单帧最新研究成果比较。† 表示采用 dd3d [42] 预先训练的 v2-99 [43] 骨架。
在这里插入图片描述
表3. 对拟议组件的值集进行消融研究。sare "表示语义对齐雷达编码器,"rgft "表示雷达制导融合变换器。
在这里插入图片描述
表4. 语义对齐雷达编码器(SARE)阀值集消融实验。si "表示语义指示器。igt "表示图像制导雷达变换器。

在这里插入图片描述
表5. 雷达制导融合变压器(RGFT)阀组烧蚀研究 变压器(RGFT)。w "表示 “有”,"w/o "表示 “无”。表示 “无”。q’、‘k’、‘v’表示查询、键、值。IMG. 表示图像。concat.’ 表示 “连接”。

结论

本文提供了一种用于三维物体检测的新型多视图雷达-摄像机融合方法 MVFusion,该方法实现了语义对齐雷达特征和鲁棒跨模态信息交互。具体来说,我们提出了语义对齐雷达编码器(SARE)来提取图像引导的雷达特征。在提取雷达特征后,我们提出了雷达引导融合变换器(RGFT),将增强的雷达特征与高级图像特征进行融合。在 nuScenes 数据集上进行的大量实验验证了我们的模型达到了单帧雷达-摄像机融合的最先进性能。未来,我们将汇集多视角相机的时空信息,进一步促进雷达-相机融合。​​

http://www.lryc.cn/news/125389.html

相关文章:

  • word 应用 打不开 显示一直是正在启动中
  • Flink-----Yarn应用模式作业提交流程
  • Python学习笔记_基础篇(五)_数据类型之字典
  • 【第三阶段】kotlin语言的安全调用操作符
  • 机器学习重要内容:特征工程之特征抽取
  • Logic 2逻辑分析器捉到的CAN帧
  • 手机的发展历史
  • 为什么要分库分表?
  • Unity游戏源码分享-中国象棋Unity5.6版本
  • 打造专属花店展示小程序
  • SpringBoot整合、SpringBoot与异步任务
  • 复习1-2天【80天学习完《深入理解计算机系统》】第六天
  • 62、华为昇腾开发板Atlas 200I DK A2配置mmpose的hrnet模型推理python/c++
  • 【数据结构】双链表
  • android设置竖屏仍然跟随屏幕旋转怎么办
  • java spring cloud 企业电子招标采购系统源码:营造全面规范安全的电子招投标环境,促进招投标市场健康可持续发展 tbms
  • 【Java】2021 RoboCom 机器人开发者大赛-高职组(初赛)题解
  • 汽车制造业上下游协作时 外发数据如何防泄露?
  • H13-922题库 HCIP-GaussDB-OLAP V1.5
  • 美团视觉GPU推理服务部署架构优化实战
  • 什么是前端框架?怎么学习? - 易智编译EaseEditing
  • logstash 原理(含部署)
  • CSS中的position属性有哪些值,并分别描述它们的作用。
  • 视频联网报警厂家怎么找?
  • 配置文件优先级解读
  • 在 React+Typescript 项目环境中创建并使用组件
  • UNIAPP中开发企业微信小程序
  • NGINX负载均衡及LVS-DR负载均衡集群
  • 由于目标计算机积极拒绝,无法连接。 Could not connect to Redis at 127.0.0.1:6379
  • 电脑提示数据错误循环冗余检查怎么办?