当前位置: 首页 > news >正文

BEV感知:DETR3D

3D检测:DETR3D

  • 前言
  • Method
    • Image Feature Extracting
    • 2D-to-3D Feature Transformation
    • Loss
  • 实验结果

前言

在这篇paper,作者提出了一个更优雅的2D与3D之间转换的算法在自动驾驶领域,它不依赖于深度信息的预测,这个框架被称之为DETR3D。这个方法主要是为了葱多视角获取 scene-specific information,作者把首先生成3D的query,生成3d reference point,通过相机参数矩阵投影到2D拿到相应的2D feature。

主要贡献:

  1. 我们提出了一个基于RGB图像进行3D目标检测的改进模型。与现有的那些在最后阶段融合不同相机图像的目标预测的工作不同,我们的方法在每一层计算中都融合了所有相机的信息。据我们所知,这是将多相机检测转换为3D set-to-set预测问题的首次尝试。

  2. 我们提出了一种通过逆几何投影将提取的2D特征和3D包络框预测连接在一起的模块。它不受二阶段网络不准确的深度预测的影响,并且通过将3D信息反投影到所有可用帧上来无缝使用多个相机的信息。
    和Object DGCNN类似,我们的方法不需要后处理,比如融合每个图像或全局NMS,并且性能和现有基于NMS方法相当。在相机视野的重叠区域, 我们方法明显优于其它方法。

  3. 我们发布了代码来促进复现性和未来的研究。

Method

在这里插入图片描述

Image Feature Extracting

输入图像经过ResNet + FPN后生成了多尺度的特征图。

2D-to-3D Feature Transformation

目前已经存在的自底向上的方法会为每张image预测dense的 bounding box,并且需要一个post- processing 去处理,这种方法存在两个缺点:

  1. 依赖于depth 预测。
  2. NMS-based 方法不支持并行化。

作者为了解决上述问题,提出了自顶向下的方法,它的Decoder部分与Detr类似需要迭代六次,也可以理解为一共有6层,每一层的step如下:

  1. 随机生成 N个 object queries 并与 bounding box centre 关联。

  2. 把这些 centre point 通过 全连接层 生成BEV空间的 reference point,然后通过相机参数矩阵投影到2D 坐标。

  3. 获取从多尺度PV feature,这些2d坐标可能存在一些小数或者超过图像范围的值,前者利用bilinear interpolation ,后者通过二进制参数判断,越界置0,然后对同一个query映射到不同相机不同level的feature求和取均值。在这里插入图片描述

  4. 第一步的另一个分支,把 N个object queries 通过 Self- Multi-head-Attention内部交互,避免不同的queries 预测同一个bounding box。

  5. 把 3 ,4 步结果相加获得下一层 object queries的input。

  6. 经过attention更新后的object query通过两个MLP网络来分别预测对应物体的class和bounding box的参数。

Loss

损失函数的设计也主要受DETR的启发,我们在所有object queries预测出来的检测框和所有的ground-truth bounding box之间利用匈牙利算法进行二分图匹配,找到使得loss最小的最优匹配,并计算classification focal loss和L1 regression loss。

实验结果

在这里插入图片描述

在这里插入图片描述

http://www.lryc.cn/news/15420.html

相关文章:

  • 亿级高并发电商项目-- 实战篇 --万达商城项目 十二(编写用户服务、发送短信功能、发送注册验证码功能、手机号验证码登录功能、单点登录等模块)
  • 整合spring cloud云服务架构 - 企业分布式微服务云架构构建
  • leetcode 540. Single Element in a Sorted Array(排序数组中的单个元素)
  • Color correction for tone mapping
  • JavaScript-XHR-深入理解
  • mathtype7.0最新版安装下载及使用教程
  • 响应状态码
  • 第六章.卷积神经网络(CNN)—CNN的实现(搭建手写数字识别的CNN)
  • 【go】defer底层原理
  • TypeScript 学习笔记
  • 【C++】map和set的使用
  • 微电影广告具有哪些特点?
  • Android RxJava框架源码解析(四)
  • Linux信号-进程退出状态码
  • springcloud+vue实现图书管理系统
  • GEE学习笔记 六十:GEE中生成GIF动画
  • react中的useEffect
  • 故障安全(Crash-Safe) 复制
  • Spring aop之针对注解
  • 【JavaScript速成之路】JavaScript数据类型转换
  • 21-绑定自定义事件
  • 【Mysql】触发器
  • CODESYS开发教程11-库管理器
  • 【UnityAR相关】Unity Vuforia扫图片成模型具体步骤
  • 2023年全国最新保安员精选真题及答案2
  • keil5安装了pack包但是还是不能选择device
  • 秒杀系统设计
  • 全面认识数据指标体系
  • 热榜首推!阿里内部都在用的Java后端面试笔记,主流技术全在里面了!备战2023Java面试,拿理想offer
  • Android架构设计——【 APT技术实现butterknife框架 】