当前位置：首页 > news >正文

3D 目标检测：从萌芽到前沿的技术演进之路

news 2025/6/29 17:06:42

亲爱的小伙伴们😘，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA 、PYTHON与SAP 的奇妙世界，亦或是读研论文的撰写攻略有所探寻🧐，那不妨给我一个小小的关注吧🥰。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享🎁。每一个点赞👍，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟🤗！

早期探索阶段

在 3D 目标检测的早期，研究主要集中在基于手工特征和传统机器学习方法上。研究人员尝试利用物体的几何形状、颜色、纹理等特征，结合支持向量机（SVM）等分类器来识别和定位 3D 物体。然而，这些方法在复杂场景下的性能有限，难以处理大规模的数据和多样化的物体姿态。

基于点云的方法兴起

VoxelNet ：2017 年提出的 VoxelNet 是 3D 目标检测领域的一个重要里程碑。它将点云数据划分为体素，并使用 3D 卷积神经网络（CNN）来学习体素特征，从而实现 3D 目标检测.
- 论文：VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
- 出处：CVPR 2018
- 原理改进：以往的方法多是将点云转换为其他形式再进行处理，而 VoxelNet 直接对体素化的点云进行 3D 卷积操作，自动学习点云的特征表示，无需人工设计特征，提高了检测的准确性和鲁棒性。其具体流程包括提素分区、分组、随机抽样、堆叠体素特征编码等步骤，最后通过区域提议网络生成检测框.

多模态融合方法的发展

MV3D ：2016 年的 MV3D 多视角 3D 网络，将激光雷达点云和 RGB 图像作为输入，预测定向 3D 边界框1.
- 论文：Multi-View 3D Object Detection Network for Autonomous Driving
- 出处：CVPR 2017
- 原理改进：此前的方法多单独依赖于点云或图像数据，MV3D 充分利用了激光雷达和相机的互补信息，通过多视角特征融合，使得网络能够更好地理解场景和物体，尤其是对于远处和小目标的检测效果有了明显提升。它通过两个子网络分别生成 3D 对象提议和进行多视角特征融合，并设计了深度融合方案，结合来自多个视角的区域特征来提高检测性能。

基于深度学习的进一步优化

PointNet/PointNet++ ：PointNet 及其升级版 PointNet++ 在 2017 年左右出现，它们直接处理点云数据，通过一系列的点云采样、分组和特征学习操作，有效地捕捉点云的局部和全局特征1.
- 论文：PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation、PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space
- 出处：CVPR 2017、NIPS 2017
- 原理改进：与之前的方法相比，PointNet 系列能够更好地处理点云的无序性和置换不变性，直接在原始点云上进行操作，避免了体素化等预处理过程中可能导致的信息丢失，从而更准确地提取点云的特征，提高了对复杂形状物体的检测精度。PointNet++ 通过构建点的分层分组，逐步抽象更大的局部区域，学习深度点集特征，进一步提升了模型的性能.

多传感器融合与序列信息利用

PointPainting ：2019 年提出的 PointPainting 方法，将激光雷达点投影到仅图像语义分割网络的输出中，并将类别评分追加到每个点上，然后将追加后的点云馈送到任何仅激光雷达的方法中，实现了点云和图像信息的有效融合，提升了检测性能。
- 论文：PointPainting: Sequential Fusion for 3D Object Detection
- 出处：CVPR 2020
- 原理改进：该方法巧妙地将图像的语义信息融入到点云数据中，弥补了点云在语义理解上的不足，使得点云数据能够更好地识别物体的类别和位置，增强了检测的准确性和可靠性。
MSF ：2023 年的 MSF 方法利用目标运动的连续性来挖掘当前帧中用于目标检测的有用序列上下文。
- 论文：MSF: An Efficient 3D Object Detection Network based on Point Cloud Sequence Fusion
- 出处：公众号【自动驾驶之心】
- 原理改进：传统的多帧检测方法通常遵循 “检测和融合” 框架，存在冗余计算和对先前帧结果的过度依赖问题。MSF 方法则只在当前帧生成提议并传播到先前帧挖掘特征，减少了计算量和对前序帧的依赖，同时双向特征聚合模块加强了跨帧提议之间的信息交换，提高了边界框预测的准确性。

基于 Transformer 的方法探索

近年来，Transformer 架构在自然语言处理领域取得了巨大成功后，也被引入到 3D 目标检测中。一些方法利用 Transformer 的自注意力机制来学习点云或多模态数据中的长程依赖关系，从而更好地捕捉物体之间的上下文信息，进一步提高了检测性能。
- 论文：TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers等
- 出处：相关的计算机视觉会议和期刊
- 原理改进：Transformer 的自注意力机制能够自适应地关注输入数据中的不同部分，对于处理 3D 目标检测中的复杂场景和多模态数据具有天然的优势。它可以更好地建模物体之间的关系，以及不同模态数据之间的相互作用，从而提升检测的精度和鲁棒性，尤其是在处理遮挡、重叠等复杂情况时表现出色。

2024 最新技术

Shift-SSD ：2024 年，港科大提出了一种新的基于点的 3D 探测器模型 Shift-SSD，用于自动驾驶中的精确 3D 物体检测.
- 论文：Cross-Cluster Shifting for Efficient and Effective 3D Object Detection in Autonomous Driving
- 出处：ICRA 2024
- 原理改进：传统的基于点的 3D 目标检测器通常采用依赖于点的渐进式下采样的架构，会损害关键非局部信息的保存。Shift-SSD 引入了跨集群移位操作，通过移位相邻簇的部分通道来增强传统设计，从而实现与非局部区域的更丰富的交互，扩大簇的感受野，在检测精度和运行效率方面取得了最新性能。其整体架构由用于聚类点特征提取的主干网络和用于产生检测框的框预测网络组成，主干网络中的移位集抽象模块包括簇点选择、球分组、集合特征提取和跨簇移位层等操作.
MV ACon ：2024 年提出的多视角关注上下文化（MV ACon）方法，用于改进基于查询的多视角三维（MV3D）目标检测中二维到三维特征提取.
- 论文：Multi-View Attentive Contextualization for Multi-View 3D Object Detection
- 出处：CVPR 2024
- 原理改进：该方法采用一种具有表征密集性但计算稀疏性的关注特征上下文化方案，解决了现有方法在高分辨率 2D 特征利用和 3D 查询到多尺度 2D 特征的稀疏接地方面的不足，通过引入全局基于聚类的上下文有效地对 MV3D 目标检测的密集场景级上下文进行编码，在实验中表现出一致的检测性能提升，尤其是在增强位置、方向和速度预测方面表现出色.