【论文阅读】Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline
题目:Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline
作者:Yangguang Li, Bin Huang, Zeren Chen, Yufeng Cui, Feng Liang, Mingzhu Shen,Fenggang Liu, Enze Xie, Lu ShengB, Wanli Ouyang, Jing Shao
motivation:
bev模式的检测逐渐成为主流,但是当前的算法资源消耗大或者效果不佳,作者提出又快又好的方法:FASTBEV.
methods:
1、Fast-Ray transformation
重新思考2D-3D映射思路
- attention机制:
通过attention的方法直接学习投射,难点在于投射的transformer-attention在车载平台的实际部署困难,算力大; - depth-based 方法通过
公式获得3d 特征: 难点在于计算量还是太大,当大的像素尺度下就遇到瓶颈了,或者无法在无gpu的设备上运行;
于是作者的ray-projection,通过查表和多视觉到单体素的操作,极大的加速的2D-3D的投射速度;在CPU上表现也不错;
具体流程如下:
2、 Multi-Scale Image Encoder
这个没得啥子好说的
3、Efficient BEV Encoder
采用了3种减少计算量的方法:1、space-to-channel的操作,2、多尺度的concat fusion(MFCF) ; 3、多帧的concat fusion(MFCF);这个自己去看代码理解更深入些;
4、Data Augmentation
IMAGE AUG: 3D的图像增强比2D难做多了,如果在图像上做变化,需改变内参;于是作者只用了常用的:flipping, cropping, rotation.
BEV AUG: BEV的增强和上面一样:flipping, scaling and rotation; 但gt也要一并跟随变换; 这里的增强还可以通过修改外参来控制;
5、Temporal Fusion