当前位置：首页 > news >正文

（14）D-FINE网络，爆锤yolo系列

news 2025/7/5 3:07:36

yolo过时了？传统的yolo算法在小目标检测方面总是不行，最新算法DEIM爆锤yolo，已经替yolo解决。
在这里插入图片描述

这个算法名为DEIM，全称是DETR with Improved Matching for Fast Convergence，其主要创新点在于提出了一种新的训练框架，用于加速基于Transformer架构（如DETR）的实时目标检测模型的收敛。具体来说，DEIM的创新点包括：

Dense O2O Matching（密集一对一匹配）：
- DEIM采用了一种新的匹配策略，称为Dense O2O（密集一对一匹配），这种策略通过在每个训练图像中增加更多的目标来增加正样本的数量，从而提供更密集的监督信号，加速模型的收敛。
- 使用标准的图像增强技术（如mosaic和mixup）来增加每个图像中的目标数量，同时保持一对一匹配框架不变。
Matchability-Aware Loss (MAL)（匹配能力感知损失）：
- 为了解决Dense O2O匹配引入的大量低质量匹配问题，DEIM提出了一种新的损失函数MAL，该函数根据匹配质量（通过IoU和分类置信度的结合）来调整惩罚，优化不同质量水平的匹配。
- MAL对于高置信度的低质量匹配给予了更大的惩罚，提高了有限正样本的效用，并简化了数学公式。

MAL的公式如下：

$\begin{cases} -q^\gamma \log(p) + (1 - q^\gamma) \log(1 - p) & \text{if } y = 1 \\ -p^\gamma \log(1 - p) & \text{if } y = 0 \end{cases}$
其中：

与YOLOv11相比，DEIM在以下几个指标上取得了提升：

收敛速度：
- DEIM显著加快了RT-DETRv2和D-FINE模型的收敛速度，使得这些模型在较少的训练周期内就能达到与YOLOv11相当的性能。
平均精度（AP）：
- 在COCO数据集上，DEIM与RT-DETRv2结合时，在一天的训练后（使用NVIDIA 4090 GPU）达到了53.2%的AP，显示出在精度上的显著提升。
实时性能：
- DEIM训练的实时模型在NVIDIA T4 GPU上达到了54.7%和56.5%的AP，分别在124和78 FPS的帧率下，无需额外数据，这表明DEIM在实时目标检测任务中具有更好的性能。
小目标检测：
- DEIM在小目标检测方面也显示出了优势，尽管与某些YOLO模型相比在小目标AP上略有下降，但总体AP更高，显示出DEIM在整体性能上的提升。