当前位置: 首页 > news >正文

SimD小目标样本分配方法

摘要

——由于目标尺寸有限且信息匮乏,微小目标检测正成为计算机视觉中最具挑战性的任务之一。标签分配策略是影响目标检测精度的关键因素。尽管已有一些针对微小目标的有效标签分配策略,但它们大多侧重于降低对边界框的敏感性以增加正样本数量,并且需要设置一些固定的超参数。然而,更多的正样本并不一定带来更好的检测结果,实际上,过多的正样本可能导致更多的误报。在本文中,我们提出了一种简单但有效的策略,称为相似度距离(Similarity Distance,SimD),用于评估边界框之间的相似性。该策略不仅同时考虑位置和形状的相似性,还能自适应地学习超参数,保证其能适应不同的数据集以及同一数据集中不同的目标尺寸。我们的方法可以简单地应用于常见的基于锚框的检测器,用以替代 IoU 进行标签分配和非极大值抑制(NMS)。在四个主流的微小目标检测数据集上进行的大量实验表明,我们的方法具有优越性能;尤其在 AI-TOD 数据集上,对 very tiny 类别,较最先进方法分别提升了 1.8 个 AP 点和 4.1 个 AP 点。代码已开源于: https://github.com/cszzshi/SimD。

I. 引言

随着无人机技术和自动驾驶的普及,目标检测的应用在日常生活中越来越广泛。通用目标检测器在准确性和检测速度上都取得了显著进步。例如,最新版本的 YOLO 系列(YOLOv8)在 COCO 检测数据集上达到了 53.9% 的平均精度(mAP),并在 NVIDIA A100 GPU 上使用 TensorRT 时仅需 3.53 ms 即可完成一张图像的检测。然而,尽管通用目标检测器在整体上取得了很大进展,当它们直接用于微小目标检测任务时,精度会急剧下降。

在对小目标检测的最新综述中,Cheng 等人 [1] 根据目标的平均面积将小目标分为三类(极小、相对小、一般小)。微小目标检测面临的两大主要挑战是信息损失和正样本不足。为了提高微小目标检测的精度,可以采取许多方法,例如特征融合、数据增强和超分辨率等。

由于充足且高质量的正样本对于目标检测至关重要,标签分配策略是影响最终结果的核心因素。目标边界框越小,IoU 指标的敏感性越高,这也是为什么微小目标难以像一般目标那样被标记为大量正样本的主要原因。图 1 中简单比较了传统基于锚框与无锚方法与我们 SimD 指标的差别。

当前关于微小目标标签分配策略的研究主要集中在降低对边界框尺寸的敏感性。从这一角度出发,Xu 等人 [2] 提出用点距离(Dot Distance,DotD)替代 IoU 作为分配度量。随后,NWD [3] 和 RFLA [4] 尝试将真值框与锚框建模为高斯分布,然后用两高斯分布之间的距离来评估边界框间的相似性。事实上,这些方法在标签分配上取得了可观进展,但也存在一些问题。

首先,这些方法大多聚焦于降低对边界框尺寸的敏感性,从而增加正样本数量。但正如我们所知,过多的正样本可能会对目标检测器产生不利影响,导致大量误报。
其次,这些度量的本质是衡量边界框之间的相似性。对于基于锚框的方法,考虑的是真值框与锚框之间的相似性,这种相似性包含两个方面:形状和位置。然而,有些方法只考虑边界框的位置,另一些方法虽然同时考虑形状与位置,但又含有需要手动选择的超参数。
最后,尽管微小目标检测数据集中目标尺寸趋于相对相似,但数据集中不同目标尺度之间仍存在差异。例如,AI-TOD 数据集中的目标尺寸范围为 2 到 64 像素。VisDrone2019 数据集中尺度差异更为显著,既包含微小目标也包含一般尺度目标。事实上,目标越小,获得正样本越困难。不幸的是,大多数现有方法可能对这一问题关注不足。

为了解决这些问题,本文提出了替代传统 IoU 的新评估度量,方法的处理流程如图 2 所示。本文的主要贡献包括:
• 我们提出了一种简单但有效的策略——相似度距离(SimD),用于评估两个边界框之间的关系。该策略不仅同时考虑位置与形状相似性,而且能够无须手动设置超参数地自适应不同数据集和同一数据集中不同的目标尺寸。
• 大量实验验证了我们方法的有效性。我们在若干通用目标检测器上,仅将基于 IoU 的分配模块替换为基于 SimD 的模块,即可在四个主流微小目标检测数据集上取得最先进的性能。

II. 相关工作

近年来,目标检测技术在各行各业的应用越来越广泛。这项技术带来了相当大的便利。例如,通过识别遥感图像中的地面目标,可以快速开展救援行动。随着深度学习技术的发展,尤其是 ResNet [5] 的引入,检测的准确率和速度都有了显著提升。

通用目标检测器大致可分为两类:两阶段检测器和单阶段检测器。

两阶段检测器首先生成一组候选区域(proposal),然后确定目标的位置和类别。这类算法包括 R-CNN [6]、Fast R-CNN [7] 和 Fas

http://www.lryc.cn/news/619661.html

相关文章:

  • 开发避坑指南(24):RocketMQ磁盘空间告急异常处理,CODE 14 “service not available“解决方案
  • 设计原则之【抽象层次一致性(SLAP)】,方法也分三六九等
  • 从零到一:TCP 回声服务器与客户端的完整实现与原理详解
  • Linux LNMP配置全流程
  • 机器学习之词向量转换
  • 第5章 学习的机制
  • 对比学习中核心损失函数的发展脉络
  • AI服务器需求激增,三星内存与SSD供不应求,HBM与DDR5成关键驱动力
  • 2025年高效能工程项目管理软件推荐榜单:AI重构工程进度可视化与资源动态调度体系
  • kernel pwn 入门(四) ret2dir详细
  • 《嵌入式Linux应用编程():Linux Framebuffer图形编程》
  • Win11和Mac设置环境变量
  • 机器学习阶段性总结:对深度学习本质的回顾 20250813
  • Html5-canvas动态渐变背景
  • mac 安卓模拟器 blueStacks
  • MacOS字体看起来比在 Windows 上更好?
  • 367. 有效的完全平方数
  • Spring Boot + MyBatis
  • Python 元类基础:从理解到应用的深度解析
  • [CSCCTF 2019 Qual]FlaskLight
  • [AI React Web] 包与依赖管理 | `axios`库 | `framer-motion`库
  • Spring cloud集成ElastictJob分布式定时任务完整攻略(含snakeyaml报错处理方法)
  • 使用TexLive与VScode排版论文
  • 从0开始配置conda环境并在PyCharm中使用
  • Node.js浏览器引擎+Python大脑的智能爬虫系统
  • 低成本扩展方案:S7-200SMART作为S7-1500分布式IO从站的上位机配置指南
  • Linux网络性能调优终极指南:深度解析与实践
  • 初识c语言————排序方法
  • 【新手入门】Android Studio 项目结构拆解,快速理解文件作用!
  • 【Linux】常用命令(三)