当前位置: 首页 > news >正文

DETR++: Taming Your Multi-Scale Detection Transformer论文解读

文章目录

  • 前言
  • 一、摘要
  • 二、引言
  • 三、相关研究
  • 四、模型方法
    • 1、Removing the Encoder方法
    • 2、Multi-Head方法
    • 3、Shifted Windows方法
    • 4、Bi-directional Feature Pyramid方法
    • 5、DETR++方法
  • 五、实验结果
  • 总结


前言

今天查看了一篇DETR++论文,本想网络上找博客大概浏览一下,不料网上对DETR++资料较少。无奈,我只有自己查看原文,了解其方法。为此,本篇博客将介绍DETR++论文内容,也希望我的解读会快速让朋友们了解其论文方法。


论文链接:https://arxiv.org/pdf/2206.02977v1.pdf

一、摘要

自从AlexNet在图像分类网络出现,目标检测使用CNN结构已占主导地位。随着transformer在自然邻域广泛使用,Carmethod引入DETR来处理目标检测。然而,由于self-attention存在平方计算复杂都,DETR不能狗处理多尺度特征交互,导致小目标检测效果较差。为了克服这个问题和进一步改善DETR性能。在这篇研究中,我们研究了多尺度特征交互的不同方法,并发现BIFPN在DETR中最有效,并提升检测性能。介于此发现,我们提出DETR++模型,一个新架构,改善检测结果。我们在coco2017测试提升了1.9%的AP,RICO icon测试11.5%的AP,我们提升了9.1%AP。

在这里插入图片描述

二、引言

列举众所周知基于CNN的检测模型方法,有anchors、grid、pointcetres等模式,也被cocohuopascal数据证明了有效性,当然后处理也是影响性能部分。而后作者介绍了DERT相关原理与框架。紧接着,作者提出DETR弊端,就是slow,其原因在于一个self-attention机制,特别对于视觉特征需sapn over thousands of token(简单说就是维度拉大了),另一个原因二分匹配也是耗时的。提到若是在增加多尺度特征到DETR中,就存在更大调整。因此,本文研究多个multi-level features方式加入DETR架构去改善性能,而不导致self-attention的二次方复杂度与二分匹配。作者又说了其困难,①在资源和时间限制下运行多层特征头几乎是不可能的,②transformer的encoder结构在解码detector模块是非常重要的额,也是不可能去除的,③使用滑动窗口思路是不work的,④dert头对不同目标尺度改善效果也不佳,⑤BIFPN结构嵌入DETR是有效果的,且不增加计算复杂度。

三、相关研究

作者介绍了基于CNN的模型,随后介绍多尺度特征文献回顾,解释使用多尺度特征如FPN确实改善小目标检测,并列举了一些模型。紧接着,作者说了,由于DETR计算的复杂度,原始模型不容易合并多尺度特征。这导致缺乏多尺度特征,是模型在小目标效果表现不佳。

四、模型方法

本文方式实际是介绍使用不同模块,重在neck中实现多尺度特征融合方式,探究原始DETR改进效果。最终作者选择BIFPN方法嵌入DETR,发现其效果最好。当然,我额外说下,作者说了DETR因其自身原因,添加多尺度特征模块嵌入于DETR是比较困难的,这个可能需要结合代码查看。当然,我在下面会给出作者原文对每个方法原文,读者可自行查看。

1、Removing the Encoder方法

在这里插入图片描述

2、Multi-Head方法

在这里插入图片描述

3、Shifted Windows方法

在这里插入图片描述

4、Bi-directional Feature Pyramid方法

在这里插入图片描述

5、DETR++方法

在这里插入图片描述

五、实验结果

作者实验也是基于coco2017数据集,上面是使用不同模块预测结果,下面是其它网络预测结果。但你会发现某些模块添加DETR模型效果会差,如stack方法的AP是37.3而DETR是39.9,反而降低了。具体详情如下:
在这里插入图片描述


总结

DETR++论文核心是想实现类似FPN的多尺度特征融合技术,尝试了很多种方法,最终使用BIFPN靠谱。与此同时,DETR++模型也解决transformer的attention引起slow问题,并找到如何将多尺度特征嵌入DETR模型方法(作者说嵌入DETR本身困难)。

http://www.lryc.cn/news/265687.html

相关文章:

  • 高级数据结构 <二叉搜索树>
  • 蚂蚁集团5大开源项目获开放原子 “2023快速成长开源项目”
  • SpringBoot+JaywayJsonPath实现Json数据的DSL(按照指定节点表达式解析json获取指定数据)
  • 气压计LPS28DFW开发(2)----水压检测
  • 设计模式之-装饰模式,快速掌握装饰模式,通俗易懂的讲解装饰模式以及它的使用场景
  • 计算机网络个人小结
  • 酒店网站搭建的作用是什么
  • 俄罗斯联邦税务局遭乌克兰入侵,数据库和副本被清空,政府数据安全不容忽视
  • WPF组合控件TreeView+DataGrid之TreeView封装
  • redisson 哨兵模式配置
  • 免费的ChatGPT分享
  • C语言—每日选择题—Day54
  • 先进制造身份治理现状洞察:从手动运维迈向自动化身份治理时代
  • 【密码学引论】密码协议
  • 利用快手的用户数据和精准营销提升电商平台用户转化率和销售额
  • Linux根目录下默认目录作用
  • 国产Type-C接口逻辑协议芯片:Type-C显示器芯片方案
  • uniapp如何原生app-云打包
  • 分布式编译distcc
  • Elasticsearch常见面试题
  • solidity 重入漏洞
  • 【智能家电】东胜物联离在线语音方案为厨电企业赋能,实现厨房智能化控制
  • 3DMAX英文版怎么切换到中文版?
  • WEB渗透—PHP反序列化(八)
  • LeetCode——2415. 反转二叉树的奇数层
  • 【Spring学习笔记】Spring 注解开发
  • 【华为数据之道学习笔记】6-5数据地图的核心价值
  • JavaWeb笔记之JSP
  • 在x64上构建智能家居(home assistant)(二)(新版Debain12)连接Postgresql数据库
  • 八股文打卡day6——计算机网络(6)