当前位置：首页 > news >正文

End-to-End Object Detection with Transformers【方法详细解读】

news 2025/7/5 20:01:47

摘要

我们提出了一种新的方法，将目标检测视为一个直接的集合预测问题。我们的方法简化了检测流程，有效地消除了许多手工设计的组件，如非极大值抑制程序或锚生成，这些组件显式编码了我们关于任务的先验知识。新框架的主要成分，称为DEtection TRansformer或DETR，是一个基于集合的全局损失，通过二部匹配强制进行唯一预测，以及一个transformer编码器-解码器架构。给定一组固定的小型学习对象查询，DETR可以推理对象之间的关系和全局图像上下文，以并行方式直接输出最终的预测集。这个新模型在概念上简单，不需要专门的库，与许多其他现代检测器不同。DETR在具有挑战性的COCO目标检测数据集上展示了与经过高度优化的Faster R-CNN基线相当的精度和运行时间性能。此外，DETR可以轻松推广到生成全景分割的统一方式，并且显著优于竞争对手的基线。训练代码和预训练模型可在GitHub上获取。

介绍

目标检测的目的是预测每个感兴趣对象的一组边界框和类别标签。现代检测器通过在大量的提案、锚或窗口中心上定义替代回归和分类问题，间接地解决这个集合预测任务。它们的性能显著受到后处理步骤的影响，如消除近似重复的预测，锚集的设计以及将目标框分配给锚的启发式方法。为了简化这些流程，我们提出了一种直接的集合预测方法，以绕过这些替代任务。这种端到端的理念在复杂的结构化预测任务（如机器翻译或语音识别）中已经取得了显著进展，但在目标检测中尚未实现：以前的尝试要么增加了其他形式的先验知识，要么未能在具有挑战性的基准测试中与强基线竞争。本文旨在弥合这一差距。

我们通过将目标检测视为一个直接的集合预测问题来简化训练流程。我

查看全文

http://www.lryc.cn/news/400127.html