当前位置: 首页 > news >正文

[2025CVPR-目标检测方向] CorrBEV:多视图3D物体检测

1. ​研究背景与动机

论文关注自动驾驶中相机仅有的多视图3D物体检测(camera-only multi-view 3D object detection)问题。尽管基于鸟瞰图(BEV)的建模近年来取得显著进展(如BEVFormer和SparseBEV等基准模型),但当前研究主要优化整体平均性能(如nuScenes数据集中的NDS和mAP指标),却忽视了关键角落案例(corner cases)。其中,遮挡(occlusion)是一个关键挑战:部分被遮挡的物体(如行人)在检测中特征质量下降,导致漏检或误检,这对自动驾驶安全构成严重威胁(例如,未能检测到部分被遮挡的行人可能导致事故)。

论文的灵感源自人类感知系统(amodal perception)。人类能基于先验知识(如物体类别和形状)重构被遮挡物体的完整语义概念。类似地,论文提出通过引入视觉和语言原型作为先验知识,来补偿遮挡导致的特征损失。视觉原型基于2D图像模板(裁剪自训练数据),语言原型则来自类别名称(如"pedestrian")的语义嵌入。这些原型通过相关学习(correlation learning)与基准模型融合,提升特征质量。

 

Figure 1直观展示了这一动机:(a)部分说明在真实驾驶场景中,注入视觉和语言原型可以补全被遮挡物体的特征;(b)对比基准模型(如SparseBEV)与CorrBEV在检测被遮挡物体上的差异,强调原型知识的增强作用。值得注意的是,该方法虽然针对遮挡设计,但实验表明它也提升了其他挑战场景(如恶劣天气)的鲁棒性。


2. ​方法细节:CorrBEV框架

CorrBEV是一个即插即用(plug-and-play)框架,可无缝集成到现有多视图3D检测基准模型中(如BEVFormer和SparseBEV)。它包含三个核心组件,均通过高效的相关学习实现知识融合。

  • Multi-modal Prototype Generator(多模态原型生成器)​​:
    该组件生成视觉和语言原型作为先验知识。视觉原型基于训练数据中的2D标注框裁剪图像,使用预训练模型DeViT提取特征嵌入(Pv​∈RK×N×D),并按可见性级别(visibility level)和类别聚类,形成遮挡感知的原型(Pvo​∈R(N×M)×D,N=10类别,M=4可见性级别)。语言原型则通过预训练BERT模型将类别名称(如"pedestrian")转化为嵌入(Pl​∈RN×D)。文本编码器在训练中微调,而视觉原型离线生成以减少计算开销。最终,原型通过广播(broadcasting)拼接为统一的多模态原型P∈R(N×M)×D。

  • Correlation-guided Query Learner(相关引导查询学习器)​​:
    该组件将多模态原型与基准模型的特征融合,采用Siamese对象跟踪中的深度相关(depth-wise correlation)操作,确保高效性。具体包括:

    • 深度相关操作​:将原型P与主干特征Fb​通过1×1卷积融合,生成相关特征Fcorr​(公式:Fcorr​=Conv1×1​(P,Fb​))。该操作增强目标相关特征并抑制背景噪声。
    • 目标感知查询初始化​:基于相关特征预测置信度图Hvis​,从中提取top-k位置嵌入作为目标感知查询Qt​,与基准的可学习查询Qlearn​通过交叉注意力融合(公式:Q=CrossAttn(Qlearn​,Qt​,Qt​))。
    • 双路径混合采样​:3D查询通过投影点采样特征,同时从主干特征Fb​和相关特征Fcorr​中采样,减轻遮挡模糊性。
      整体架构如图Figure 2所示,强调原型注入提升遮挡物体的检测质量。
  • Occlusion-aware Trainer(遮挡感知训练器)​​:
    针对训练不平衡(不同可见性级别的物体数量不均等),该组件优化训练流程:
    • 伪遮挡处理器(Pseudo-occlusion Processor, P2)​​:在非遮挡物体(高可见性)的2D框内随机丢弃像素(替换为区域均值),模拟遮挡以平衡数据分布。
    • 对比语义对齐(Contrastive Semantic Alignment)​​:使用对比损失(contrastive loss)对齐视觉特征与语言原型,将同一类别的不同遮挡级别特征拉近到统一语义空间,增强分类准确性。
      该训练器引入零推理开销,仅轻微增加训练成本。

 

Figure 3展示了nuScenes数据集中不同可见性级别的分布,突出了遮挡级别(如Vis1: 0-40%可见性)的样本稀缺性,解释P2设计的必要性。 

3. ​实验设计与结果

论文在nuScenes数据集上进行实验,验证CorrBEV的有效性和泛化性。数据集包含1000个驾驶场景,标注了10个类别的140万3D框,并划分可见性级别(Vis1-Vis4,从低到高)。评估指标包括平均精度(mAP)、nuScenes检测得分(NDS),以及各可见性级别的召回率(Recall)。

  • 实验设置​:

    • 基准模型​:应用CorrBEV到BEVFormer(dense-query)和SparseBEV(sparse-query),分别称为CorrBEVfm​和CorrBEVsp​。
    • 训练细节​:使用8×NVIDIA RTX 3090 GPU,遵循基准模型设置(如ResNet-101骨干网络)。
    • 评估协议​:除整体性能外,还使用RoboBEV协议评估不同角落案例(如遮挡、雪天、低光照)。
  • 整体性能结果​:

    • CorrBEV显著提升基准模型。在nuScenes验证集上,BEVFormer提升2.6% mAP和2.6% NDS,SparseBEV提升2.7% mAP和1.6% NDS(见表1和表2)。测试集上也有类似提升(如BEVFormer提升3.6% mAP)。
    • 推理效率高:相比SparseBEV(21.7 FPS),CorrBEV仅降至18.4 FPS,训练开销增加7.48%(21.41 vs. 19.92 GPU-days)。
  • 遮挡性能结果​:

    • CorrBEV在低可见性物体(Vis1和Vis2)上提升最显著。例如,SparseBEV在Vis1的召回率从60.4%提升至69.1%(见表1),证明原型有效补全遮挡特征。
    • 有趣的是,dense-query模型(如BEVFormer)在高可见性物体上提升较小(Vis4召回率72.4% vs. 72.3%),而sparse-query模型(如SparseBEV)提升显著(80.0% to 87.4%),说明原型对稀疏采样更有效。

 

Figure 4以SOLOFusion为参考,展示了CorrBEV在召回率上的相对改进,凸显其在遮挡条件下的优势。

  • 其他角落案例结果​:
    尽管针对遮挡设计,CorrBEV提升了其他挑战场景的鲁棒性(RoboBEV协议)。如图Figure 5所示,在雪天(Snow)和颜色量化(ColorQuant)等场景下,BEVFormer基准模型有明显提升(例如雪天场景提升显著),证明方法能应对多种特征退化问题。

 

  • 组件消融分析​:

    • 多模态原型:语言原型单独提升1.1% mAP(vs. 基线),视觉原型进一步增加0.6% mAP,证明互补性。
    • 训练策略:对比损失(CL)和P2各贡献约0.5% mAP提升(见表3)。
    • 原型微调:冻结语言或视觉原型会降低性能,尤其视觉原型冻结导致mAP下降1.2%(见表4),强调微调的必要性。

  • 定性结果​:
    Figure 6可视化对比:在典型遮挡场景中,CorrBEV成功检测基准模型漏检的物体。例如,前摄像头中,交通灯柱遮挡的行人(青色圈)被检测出;前左和后右摄像头中,拥挤行人和障碍物(黄色圈)检测更准确,提升驾驶安全。

 

嵌入可视化​:
Figure 7展示t-SNE降维后的特征分布。对比损失对齐了“行人、自行车、摩托车”类别的嵌入,减少混淆(左为基线,右为CorrBEV),有利于下游跟踪和预测任务。 

 

4. ​主要贡献与结论

论文的贡献总结为四点:

  1. 即插即用框架​:引入视觉和语言原型作为先验知识,提升检测鲁棒性,尤其针对部分被遮挡物体。
  2. 创新相关学习​:首次将相关学习用于多模态原型与3D检测模型的融合,高效提升特征质量。
  3. 优化训练流程​:提出随机像素丢弃(P2)和多模态对比对齐(CL),改善遮挡物体检测能力。
  4. 广泛验证​:在多个基准模型(BEVFormer、SparseBEV)上实现一致提升,并在nuScenes和RoboBEV协议中证实有效性。

结论强调,CorrBEV填补了多视图3D检测中遮挡处理的空白,其设计源于真实需求。实验证明,该方法不仅提升遮挡性能,还增强整体鲁棒性。论文呼吁社区更多关注BEV感知中的遮挡问题,以推动自动驾驶安全。未来工作可探索原型学习在其他感知任务的应用。

论文地址: https://openaccess.thecvf.com/content/CVPR2025/papers/Xue_CorrBEV_Multi-View_3D_Object_Detection_by_Correlation_Learning_with_Multi-modal_CVPR_2025_paper.pdf

http://www.lryc.cn/news/592843.html

相关文章:

  • 基于极空间NAS+GL-MT6000路由器+Tailscale的零配置安全穿透方案
  • 40.限流规则
  • 数据排序
  • 二进制专项
  • 探索 Vue 3.6 的新玩法:Vapor 模式开启性能新篇章
  • 网安-DNSlog
  • DOM 文档对象模型
  • GI6E 加密GRID電碼通信SHELLCODE載入
  • 柴油机活塞cad【4张】三维图+设计说明书
  • RPG58.可拾取物品二:处理玩家拾取事件
  • vue2 面试题及详细答案150道(81 - 90)
  • android14截屏
  • C++进阶-红黑树(难度较高)
  • mysql复制延迟如何处理
  • 亚马逊新手如何快速上手广告运营,实现品牌曝光与销量提升?
  • Springboot3整合Elasticsearch8(elasticsearch-java)
  • Overleaf撰写文档
  • kubernetes pod 深度解析
  • Entity Framework (EF) 深度解析
  • 荷兰KIPP ZONEN CMP4 太阳辐射传感器耐热仪器设计高温日射计一种辐射计
  • CH347 USB高速编程器烧录器
  • 菱形继承 虚继承
  • Java学习------ConcurrentHashMap
  • 外部DLL创建及使用
  • react控制react Popover组件显示隐藏
  • Agent AI(3):Agent分类
  • Jenkins pipeline 部署docker通用模板
  • 网关-微服务网关入门
  • 《Qt数据库》知识点实践
  • VisualXML全新升级 | 新增BusLoad计算