当前位置: 首页 > news >正文

【YOLO改进】换遍MMDET主干网络之Pyramid Vision Transformerv2(PVTv2)(基于MMYOLO)

Pyramid Vision Transformer v2(PVTv2)

Pyramid Vision Transformer v2(PVTv2)是在PVTv1的基础上进行改进的一种深度学习模型,它同样结合了Transformer架构和金字塔结构,旨在提供更强大的特征表示和更好的性能。

PVTv2的主要改进包括:

  1. 降低计算复杂度:通过引入线性复杂度注意层(Linear Complexity Attention Layer),PVTv2将PVTv1的计算复杂度从二次降低到线性,使得模型在处理高分辨率输入时更加高效。
  2. 重叠补丁嵌入:PVTv2采用了重叠补丁嵌入(Overlapping Patch Embedding)来替代PVTv1中的非重叠补丁嵌入。这种方法可以更好地保留图像的局部连续性,提高模型的性能。
  3. 卷积前馈网络:在PVTv2中,卷积前馈网络(Convolutional Feed-Forward Network)被用来替代PVTv1中的全连接前馈网络。这种方法可以引入卷积的局部性和层次性,进一步提高模型的性能。

通过这些改进,PVTv2在多个基本视觉任务(如分类、检测和分割)上实现了显著的性能提升,并且在参数量和计算量方面也具有更好的优化。

PVTv2作为YOLO主干网络的可行性分析

  1. 性能优势:PVTv2作为PVTv1的改进版本,具有更强的特征表达能力和更高的性能。将其作为YOLO的主干网络,可以使得YOLO能够更有效地提取图像中的特征信息,从而提高目标检测的精度和效率。特别是在处理多尺度目标时,PVTv2的金字塔结构和线性复杂度注意层能够提供更丰富的特征信息,进一步提高模型的性能。
  2. 兼容性:尽管PVTv2主要基于Transformer架构,但其金字塔结构的设计使其仍然可以与YOLO的检测头进行有效地融合。通过合理的网络结构和参数设置,可以将PVTv2作为YOLO的主干网络来使用,并形成完整的目标检测模型。
  3. 优化与改进:在实际应用中,可以根据具体任务需求对PVTv2进行进一步的优化和改进。例如,可以通过调整网络结构、深度、宽度等参数来平衡模型的性能和速度;也可以采用一些先进的优化技术(如剪枝、量化等)来减小模型的参数量和计算量,进一步提高模型的实时性和部署能力。

替换Pyramid Vision Transformerv2(PVTv2)(基于MMYOLO)

OpenMMLab 2.0 体系中 MMYOLO、MMDetection、MMClassification、MMSelfsup 中的模型注册表都继承自 MMEngine 中的根注册表,允许这些 OpenMMLab 开源库直接使用彼此已经实现的模块。 因此用户可以在 MMYOLO 中使用来自 MMDetection、MMClassification、MMSelfsup 的主干网络,而无需重新实现。

假设想将'Pyramid Vision Transformerv2(PVTv2)'作为 'yolov5' 的主干网络,则配置文件如下:

_base_ = './yolov5_s-v61_syncbn_8xb16-300e_coco.py'deepen_factor = _base_.deepen_factor
widen_factor = 1.0
channels = [64, 160, 256]
checkpoint_file = 'https://github.com/whai362/PVT/releases/download/v2/pvt_v2_b0.pth'  #model = dict(backbone=dict(_delete_=True, # 将 _base_ 中关于 backbone 的字段删除type='mmdet.PyramidVisionTransformerV2', # 使用 mmdet 中的 PyramidVisionTransformerV2embed_dims=32,num_layers=[2, 2, 2, 2],out_indices =(1, 2, 3), #设置PyramidVisionTransformerv2输出的stage,这里设置为1,2,3,默认为(0,1,2,3)init_cfg=dict(type='Pretrained', checkpoint=checkpoint_file)),neck=dict(type='YOLOv5PAFPN',deepen_factor=deepen_factor,widen_factor=widen_factor,in_channels=channels, # 注意:PyramidVisionTransformer 输出的3个通道是 [64, 160, 256],和原先的 yolov5-s neck 不匹配,需要更改out_channels=channels),bbox_head=dict(type='YOLOv5Head',head_module=dict(type='YOLOv5HeadModule',in_channels=channels, # head 部分输入通道也要做相应更改widen_factor=widen_factor))
)

http://www.lryc.cn/news/345878.html

相关文章:

  • 【漏洞复现】RuvarOA协同办公平台 WorkFlow接口处存在SQL注入
  • Kubelet containerd 管理命令 ctr常用操作
  • 求一个B站屏蔽竖屏视频的脚本
  • 用Github+HUGO搭建博客的经验教训
  • MongoDB4.4操作命令
  • 共享旅游革命:千益畅行卡的优势揭秘
  • 【doghead】mac: clion2024.1启动崩溃
  • 企业合规视角下的菜鸟网络与拼多多不正当竞争案
  • 如何在Java中处理日期和时间?介绍Java 8中的时间API
  • 24数维杯ABC题思路已更新!!!!
  • Fastapi+docker+tortoise-orm+celery
  • springBoot笔记五(pom.xml\yml)
  • 三生随记——耳机里的诅咒
  • 嵌入式学习<2>:EXTI、ADC、NVIC和AFIO
  • Nginx - server、listen、server_name和多服务请求处理(三)
  • C语言/数据结构——(相交链表)
  • 【二叉树算法题记录】二叉树的所有路径,路径总和——回溯
  • verilog基础语法之数据类型
  • ansible部署lamp架构
  • Java面试——MyBatis
  • Ubuntu-22.04使用systemd.mount挂载本地磁盘
  • 【Qt】界面定制艺术:光标(cursor)、字体(font)、提示(toolTip)、焦点(focusPolicy)与样式表(styleSheet)的深度探索
  • Python GraphQL服务器实现库之tartiflette使用详解
  • 面试官:请介绍类加载过程,什么是双亲委派模型?
  • mysql 细分
  • 数据驱动实战二
  • 解决参考文献自动生成标号,换行时自动缩进
  • 网络安全专业岗位详解+自学学习路线图
  • mybatisPlus一个事务中切换数据源概述
  • 如何在Android手机上恢复已删除的视频?