当前位置: 首页 > news >正文

[2025CVPR-目标检测方向]FSHNet:一种用于3D物体检测的全稀疏混合网络。

1. ​简介

论文提出了FSHNet(Fully Sparse Hybrid Network),一种用于3D物体检测的全稀疏混合网络。FSHNet旨在解决现有稀疏3D检测器的两大核心问题:长距离交互能力弱和网络优化困难。稀疏检测器(如VoxelNeXt和SAFDNet)虽能高效处理点云数据(仅操作非空体素),但在长距离检测任务中表现不足。FSHNet通过结合稀疏卷积的高效性和注意力机制的长距离交互能力,实现了在多个基准数据集(Waymo、nuScenes、Argoverse2)上的SOTA性能。主要创新包括SlotFormer块、动态稀疏标签分配策略和稀疏上采样模块。


2. ​核心问题与动机

稀疏3D检测器仅从非空体素提取特征,导致两个关键挑战:

  • 长距离交互弱(Long-range interaction weakness)​​:稀疏体素间的交互依赖于卷积核的局部范围,当体素距离超出核尺寸时(例如,两个遥远体素无法通过中间空体素桥接),特征提取能力受限。这削弱了全局场景感知,尤其影响大型物体(如车辆)的检测。
  • 中心特征缺失(Center feature missing)​​:物体中心区域常为空体素(尤其在大物体中),但中心特征对对象检测至关重要(如作为代理)。缺失中心特征阻碍网络优化,导致训练不稳定和性能下降。

图1直观比较了稀疏与稠密检测器的体素交互差异:在稀疏检测器中,遥远体素无交互;在稠密检测器中,空体素充当“桥梁”,实现扩散交互。

传统解决方案(如增大卷积核)会增加计算开销,而基于Transformer的方法(如DSVT)受限于窗口尺寸。FSHNet通过混合架构解决这些问题。 

3. ​FSHNet方法细节

FSHNet的整体框架如图2所示,包括输入处理、稀疏卷积编码器、SlotFormer块、稀疏上采样模块和动态稀疏头。框架以点云为输入,转换为稀疏体素后,通过多阶段处理生成预测。

 

3.1 ​SlotFormer块(解决长距离交互问题)​
  • 核心思想​:SlotFormer取代传统窗口分区,使用“槽位分区”(slot partition)。每个槽沿X或Y轴覆盖整个场景(无限边长),提供更大的感受野(全局范围)。相比窗口分区(如DSVT),槽位分区能处理更长的距离交互。
  • 机制​:体素按槽索引分组(Eq.1),采用线性注意力(linear attention)而非自注意力,计算复杂度从O(N²)降至O(N)。具体步骤:

    • 体素分组:基于坐标计算槽索引(d_i^x 和 d_i^y)。
    • 线性注意力:生成查询(Q)、键(K)、值(V)矩阵(Eq.2),计算KV矩阵(Eq.3),并通过归一化输出新特征(Eq.4)。最后,通过前馈网络更新特征(Eq.5)。

  • 优势​:SlotFormer与现有稀疏编码器(如SAFDNet)结合,实现高效全局交互。在FSHNet中,多层SlotFormer交替槽方向(X/Y轴),增强全局连接。
3.2 ​稀疏上采样模块(增强细粒度细节)​
  • 问题​:稀疏编码器下采样导致小物体细节丢失(如行人)。
  • 机制​:输入体素坐标加倍(Eq.6),创建更细粒度的体素网格。随后应用稀疏卷积层(核尺寸3,步幅1)扩散特征(Eq.7),恢复下采样中丢失的细节。

  • 优势​:保留小物体的细粒度信息,提升检测精度。实验表明,该模块对行人等小物体效果显著(见表7对比)。

 

3.3 ​动态稀疏标签分配(优化网络训练)​
  • 问题​:现有方法(如中心最近分配)仅选最近体素作为正样本,忽略高质量候选,导致优化不足。
  • 策略​:为每个标注框中心,动态选择候选体素。如图3所示,计算候选体素(n个最近体素)的选择成本(Eq.8),基于分类和回归损失(IoU加权)选择top-k正样本(Eq.9)。成本计算包括预测框与真实框的IoU。

 

  • 损失函数​:回归使用旋转加权IoU损失;分类使用焦点损失(focal loss),正样本权重为1,负样本权重基于IoU设置。
  • 优势​:提供更多高质量正样本,缓解中心缺失问题,优化网络训练。消融实验显示,候选数n=5时效果最佳(见表8)。

4. ​实验验证

FSHNet在三大数据集评估,使用FSHNet_light(基于VoxelNeXt)和FSHNet_base(基于SAFDNet)变体。关键结果:

4.1 ​Waymo数据集
  • 验证集​(表1):FSHNet_base在LEVEL 2 mAP/mAPH上达77.1/74.9,优于SOTA方法(如ScatterFormer的75.7/73.8)。在车辆和行人类别提升显著(如车辆AP 82.2 vs. SAFDNet的80.6)。
  • 测试集​(表2):FSHNet_base的LEVEL 2 mAP/mAPH为77.4/75.2,刷新SOTA记录。SlotFormer对大型物体(车辆)效果突出。
4.2 ​nuScenes数据集
  • 验证集​(表3):FSHNet_base在NDS和mAP上达71.7和68.1,超越TransFusion-L和SAFDNet。训练仅36轮(无CBGS策略),显示高效性。
4.3 ​Argoverse2数据集
  • 验证集​(表4):针对长距离检测(范围200米),FSHNet_base的mAP为40.2,显著优于SAFDNet(38.7)。小物体(行人mAP +3.2%)和大物体(巴士mAP +1.0%)均有提升。
4.4 ​消融研究
  • 组件贡献​(表5):SlotFormer提升大型物体性能(车辆AP +2.4%);动态标签分配优化训练(行人AP +1.8%);稀疏上采样增强小物体检测。

  • 分区方式对比​(表6):槽位分区 + 线性注意力效果最佳(优于窗口分区)。

  • 上采样策略​(表7):SP-SU(稀疏卷积扩散)优于SM-SU(特征重复)。

  • 参数分析​(表8):候选数n=5时动态标签分配最优。


5. ​主要贡献与限制

  • 贡献​:
    • 提出首个结合稀疏卷积和注意力的混合模型FSHNet,平衡效率与性能。
    • 设计SlotFormer块,实现全局范围体素交互。
    • 引入动态稀疏标签分配,深度优化网络。
    • 稀疏上采样模块保留细粒度细节,提升小物体检测。
    • 实验证明泛化性强,在多个基准达到SOTA。
  • 限制​:SlotFormer增加延迟(FSHNet_base从94ms增至123ms),未来需优化效率。

6. ​结论

FSHNet通过创新混合架构解决了稀疏3D检测器的核心瓶颈,在长距离交互和网络优化上取得突破。实验验证了其在Waymo、nuScenes和Argoverse2的优越性,为自动驾驶感知提供了高效解决方案。代码开源促进了社区应用。

 论文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Liu_FSHNet_Fully_Sparse_Hybrid_Network_for_3D_Object_Detection_CVPR_2025_paper.pdf

http://www.lryc.cn/news/592631.html

相关文章:

  • vue2 面试题及详细答案150道(41 - 60)
  • Linux系统安装Docker及部署Node.js 20.15.0(含pnpm、pm2)完整指南
  • 武汉江滩某码头变形及应力自动化监测
  • 由于热爱,我选PGCE专家学习
  • 小红书采集工具:无水印图片一键获取,同步采集笔记与评论
  • 接口测试时如何上传文件(图片、安装包等)
  • MyBatis缓存实战指南:一级与二级缓存的深度解析与性能优化
  • Tomcat及Nginx部署使用
  • 淘宝高级详情接口接入指南与Python代码实战
  • 如何搭建systemverilog/UVM验证环境开发vip(腾讯元宝)
  • C专题5:函数进阶和递归
  • InnoDB 多版本控制 慢sql排查(基于MySQL 5.7)
  • CentOS7 内网服务器yum修改
  • 谈进程间通信
  • NVIDIA 驱动安装失败问题排查与解决(含离线 GCC 工具链安装全过程)
  • python爬虫获取PDF
  • 去中心化交易所(DEX)深度解析:解码行业头部项目
  • WEB安全架构
  • WEB弹性设计
  • MyBatis之关联查询
  • leetcode:冗余连接 II[并查集检查环][节点入度]
  • 【机器人】HOV-SG 开放词汇 | 分层3D场景图 | 语言引导机器人导航
  • vue3+vite 使用scss、sass 全局定义的变量以及使用
  • 【Linux】进程间通信(三)——共享内存和消息队列
  • 特种作业操作证(制冷空调)的考试科目有哪些?
  • Spring AI开发智能客服(Tool calling)
  • 第七章 愿景09 海波龙的坑
  • 链表算法之【链表的中间节点】
  • MSTP+VRRP+DHCP配置实验(ensp)
  • 医疗人工智能的心电图分析:创新技术与临床应用