当前位置: 首页 > news >正文

End-to-End Object Detection with Transformers【方法详细解读】

摘要

我们提出了一种新的方法,将目标检测视为一个直接的集合预测问题。我们的方法简化了检测流程,有效地消除了许多手工设计的组件,如非极大值抑制程序或锚生成,这些组件显式编码了我们关于任务的先验知识。新框架的主要成分,称为DEtection TRansformer或DETR,是一个基于集合的全局损失,通过二部匹配强制进行唯一预测,以及一个transformer编码器-解码器架构。给定一组固定的小型学习对象查询,DETR可以推理对象之间的关系和全局图像上下文,以并行方式直接输出最终的预测集。这个新模型在概念上简单,不需要专门的库,与许多其他现代检测器不同。DETR在具有挑战性的COCO目标检测数据集上展示了与经过高度优化的Faster R-CNN基线相当的精度和运行时间性能。此外,DETR可以轻松推广到生成全景分割的统一方式,并且显著优于竞争对手的基线。训练代码和预训练模型可在GitHub上获取。

介绍

目标检测的目的是预测每个感兴趣对象的一组边界框和类别标签。现代检测器通过在大量的提案、锚或窗口中心上定义替代回归和分类问题,间接地解决这个集合预测任务。它们的性能显著受到后处理步骤的影响,如消除近似重复的预测,锚集的设计以及将目标框分配给锚的启发式方法。为了简化这些流程,我们提出了一种直接的集合预测方法,以绕过这些替代任务。这种端到端的理念在复杂的结构化预测任务(如机器翻译或语音识别)中已经取得了显著进展,但在目标检测中尚未实现:以前的尝试要么增加了其他形式的先验知识,要么未能在具有挑战性的基准测试中与强基线竞争。本文旨在弥合这一差距。

我们通过将目标检测视为一个直接的集合预测问题来简化训练流程。我

http://www.lryc.cn/news/400127.html

相关文章:

  • SQLite数据库与ROOM数据库
  • vue实现动态图片(gif)
  • win11系统设置允许无密码远程桌面连接
  • 使用 PyAMF / Django 实现 Flex 类映射
  • 算法思想总结:字符串
  • 滑块拼图验证码识别
  • Activity启动流程
  • PHP转Go系列 | ThinkPHP与Gin框架之OpenApi授权设计实践
  • 使用SOAP与TrinityCore交互(待定)
  • QQ频道导航退出
  • MySQL里的累计求和
  • Python爬虫速成之路(3):下载图片
  • 同三维T80004EA编解码器视频使用操作说明书:高清HDMI编解码器,高清SDI编解码器,4K超清HDMI编解码器,双路4K超高清编解码器
  • ChatGPT提问获取高质量答案的艺术PDF下载书籍推荐分享
  • 微信小程序中的数据通信
  • everything搜索不到任何文件-设置
  • python如何结束程序运行
  • InnoDB
  • spark运行报错:Container killed by YARN for exceeding memory limits
  • (三)大模型/人工智能/机器学习/深度学习/NLP
  • 数学基础 -- 三角学
  • 基于BitMap的工作日间隔计算
  • sqlite3 — DB-API 2.0 interface for SQLite databases
  • Spring Boot中的安全配置与实现
  • DepthAnything(2): 基于ONNXRuntime在ARM(aarch64)平台部署DepthAnything
  • JAVA简单封装UserUtil
  • 【TOOLS】Chrome扩展开发
  • 分享WPF的UI开源库
  • [ACM独立出版]2024年虚拟现实、图像和信号处理国际学术会议(ICVISP 2024)
  • JVM:类加载器