当前位置: 首页 > news >正文

英文论文(sci)解读复现【NO.20】TPH-YOLOv5++:增强捕获无人机的目标检测跨层不对称变压器的场景

此前出了目标检测算法改进专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读发表高水平学术期刊中的 SCI论文,并对相应的SCI期刊进行介绍,帮助大家解答疑惑,助力科研论文投稿。解读的系列文章,本人会进行 创新点代码复现,有需要的朋友可关注私信我获取。

一、摘要

无人机拍摄图像中的目标检测是近年来的一项热门任务。作为无人机总是在不同的高度导航,物体的比例变化很大,这给优化带来了负担的模型。此外,高速和低空飞行会导致密集的运动模糊这带来了巨大的挑战。为了解决上述两个问题,基于YOLOv5,我们添加了一个额外的预测头来检测微小规模的物体,并取代了基于CNN的预测头预测头与变压器预测头(TPH),构建TPH-YOLOv5模型。提出了TPH-YOLOv5++,以显著降低计算成本并改进检测TPH-YOLOv5的速度。在TPH-YOLOv5++中,跨层不对称变压器(CA Trans)是其被设计为在保持该预测头的知识的同时替换附加的预测头。通过使用稀疏局部注意力(SLA)模块,在附加头部之间的不对称信息并且可以有效地捕捉其他头部,丰富了其他头部的特征。在VisDrone中挑战2021,TPH-YOLOv5获得第四名,并取得与第一名相当的成绩模型(AP 39.43%)。基于TPH-YOLOv5和CA Trans模块,TPH-YOLOv5++可以进一步提高效率,同时实现可比性和更好的结果。

二、网络模型及核心创新点

三、实验效果(部分展示)

五、实验结论

无人机捕获图像上的目标检测具有三个主要挑战:尺寸变化,高密度和大的对象覆盖范围。在YOLOv5的基础上,我们添加了一些切割技术,即变压器编码器块、CBAM和一些经验丰富的技巧
以提高无人机捕获场景中的检测性能。然后,为了缓解在保持性能的同时,我们设计了计算和推理时间成本一种新型跨层不对称变压器模块,构建TPH-YOLOv5++模型用稀疏取代视觉变换器中原有的多头自注意局部注意,跨层不对称变压器模块可以丰富的特点小路在小路的帮助下。我们的TPH-YOLOv5在VisDrone中获得第四名挑战2021。在两个基准数据集上进行了广泛的实验表明我们的两个模型实现了新的SOTA结果,并且TPH-YOLOv5++可以显著降低计算和内存成本,同时实现可比或更好的性能性能优于TPH-YOLOv5。

注:论文原文出自TPH-YOLOv5++: Boosting Object Detection on Drone-Captured Scenarios with Cross-Layer Asymmetric Transformer 本文仅用于学术分享,如有侵权,请联系后台作删文处理。

解读的系列文章,本人已进行创新点代码复现,有需要的朋友欢迎关注私信我获取
http://www.lryc.cn/news/300890.html

相关文章:

  • 第十五章 以编程方式使用 SQL 网关 - %SQLGatewayConnection 方法和属性
  • 【QTableView】
  • VS-Code-C#配置
  • 第七篇【传奇开心果系列】Python微项目技术点案例示例:数据可视化界面图形化经典案例
  • LeetCode 第33天 | 1005. K 次取反后最大化的数组和 135. 分发糖果 134. 加油站
  • PointMixer论文阅读笔记
  • [word] word分割线在哪里设置 #其他#经验分享
  • C++ 音视频原理
  • C# 只允许开启一个exe程序
  • 【Java程序员面试专栏 分布式中间件】Redis 核心面试指引
  • 2024年【高处安装、维护、拆除】模拟考试题库及高处安装、维护、拆除实操考试视频
  • 【QT+QGIS跨平台编译】之三十七:【Shapelib+Qt跨平台编译】(一套代码、一套框架,跨平台编译)
  • 【机器学习基础】决策树(Decision Tree)
  • 图神经网络DGL框架,graph classification,多个且不同维度的node feature 训练
  • 蓝桥杯(Web大学组)2022国赛真题:用什么来做计算 A
  • Linux POSIX信号量 线程池
  • Sentinel(理论版)
  • python3 获取某个文件夹所有的pdf文件表格提取表格并一起合并到excel文件
  • 【AIGC】Stable Diffusion的模型入门
  • 【JavaEE】_HTTP请求首行详情
  • Linux第48步_编译正点原子的出厂Linux内核源码
  • 程序员为什么不喜欢关电脑?
  • 【初始RabbitMQ】了解和安装RabbitMQ
  • Linux第56步_根文件系统第3步_将busybox构建的根文件系统烧录到EMMC
  • Linux进程间通信(三)-----System V消息队列
  • Elasticsearch:混合搜索是 GenAI 应用的未来
  • 态、势、感、知的偏序、全序与无序
  • 【从Python基础到深度学习】 8. VIM两种状态
  • java微服务面试篇
  • OpenAI 生成视频模型 Sora 论文翻译