BEV学习记录
近期可能要经常性的开展BEV工作,打算把自己觉着不错的网站拿出来记录一下。
首先贴上来我还没有细读的一篇觉着不错的文章。
自动驾驶感知新范式——BEV感知经典论文总结和对比(上)_苹果姐的博客-CSDN博客_bev视角
开山之作--LSS ECCV 2020 (2020.8)
GitHub - nv-tlabs/lift-splat-shoot: Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D (ECCV 2020)
怎么描述lss呢,采用[1]里的一句话,Lss expicitly predicts depth distribution with a proposed view transform and projects image features onto BEV .
首先,他需要估计深度,其次 根据深度进行投影,这就是他的视角转换方式。
BEVFormer ECCV 2022
GitHub - fundamentalvision/BEVFormer: [ECCV 2022] This is the official implementation of BEVFormer, a camera-only framework for autonomous driving perception, e.g., 3D object detection and semantic map segmentation.
还是引用[1],BEVFormer performs 2D-to-3D transformation based on spatital cross-attention.
它和lss有很大的不同,首先lss是先估计深度,在根据深度进行投影,而BEVFormer是根据BEV 网格直接在原始图片上使用query查询特征。
并且它使用了时间信息,利用self-attn 来融合历史的信息和现在的信息
BEVDepth ECCV 2022 (2022.6)
GitHub - Megvii-BaseDetection/BEVDepth: Official code for BEVDepth.
这篇文章与lss差不多类似,也是使用了估计深度的方法,再进行投影。并且这篇文章利用Lidar进行了监督,还有其他的一些tricks。
我导说这篇文章相较于BEVFormer而言,网络结构更清晰,更好进行一些修改。
BEVerse (暂时没找到发表在哪)(2022.5)
GitHub - zhangyp15/BEVerse: The official repository for BEVerse
这篇文章,也使用了lss的投影方式,但是他和上述BEVDepth还有BEVFormer还不是很一样,他不注重于投影的创新,而是把重点放在了未来flow的预测还有multi-task的融合,并且研究了怎样将时间更好的融入到网络中(其实文章里面就一句话,follow Fiery)
Simple BEV CVPR 2022 (2022.6)
GitHub - aharley/simple_bev: A Simple Baseline for BEV Perception
[1]GitHub - Sense-GVT/Fast-BEV: Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline