当前位置: 首页 > news >正文

YOLOv9改进系列,YOLOv9颈部网络SPPELAN替换为FocalModulation


在这里插入图片描述

摘要

焦点调制网络(简称FocalNets),其中自注意力(SA)完全由焦点调制模块取代,用于在视觉中建模标记交互。焦点调制包括三个组件:(i)焦点情境化,通过一堆深度卷积层实现,从短到长范围编码视觉上下文,(ii)门控聚合,选择性地将上下文聚集到每个查询标记的调制器中,以及(iii)逐元素仿射变换,将调制器注入查询中。广泛的实验表明,FocalNets表现出卓越的可解释性,并且在图像分类、目标检测和分割任务上,以类似的计算成本优于SoTA SA的对应模型(例如Swin和Focal Transformers)。具体来说,具有微小和基础规模的FocalNets可以在ImageNet-1K上分别达到82.3%和83.9%的top-1准确率。在ImageNet-22K上以224²分辨率进行预训练后,微调时分别在224²和384²分辨率下获得86.5%和87.3%的top-1准确率。
焦点调制网络(FocalNet)调制自动且逐渐聚焦于诱导识别类别的目标区域,如下图所示:
在这里插入图片描述

FocalModulation介绍

自注意力(SA)和FocalModulation焦点调制,如下图所示,给定查询token和目标token ,SA 首先执行查询-键交互以计算注意力分数,然后进行查询-值聚合以从其他token中捕捉上下文。相比之下,焦点调制首先将不同粒度级别的空间上下文编码为调制器,然后根据查询token自适应地注入到查询token中。显然,SA需要大量的交互和聚合操作,而焦点调制颠倒了它们的顺序,使两者都变得轻量化。
在这里插入图片描述
焦点调制计算公式如下:
在这里插入图片描述

其中 q(⋅) 是一个查询投影函数,m(⋅) 是上下文聚合函数,其输出称为调制器。焦点调制具有以下有利特性:
平移不变性:由于 q(⋅) 和 m(⋅) 始终以查询令牌 i 为中心,且不使用位置嵌入,调制对输入特征图 X 的平移不变。
显式输入依赖:通过在目标位置 i 周围聚合局部特征来计算调制 m(⋅),因此我们的焦点

http://www.lryc.cn/news/439716.html

相关文章:

  • 圆环加载效果
  • leetcode - 分治思想
  • Java面试题·解释题·单例模式、工厂模式、代理模式部分
  • 如何编写智能合约——基于长安链的Go语言的合约开发
  • 【PHP代码审计】PHP基础知识
  • 大模型笔记03--快速体验dify
  • Linux常用命令以及操作技巧
  • C语言 | Leetcode C语言题解之题409题最长回文串
  • FreeSql 全面指南:从基础到高级实战,深入解析读写分离与导航属性
  • 深度学习之微积分预备知识点
  • 动态内存
  • C/C++实现植物大战僵尸(PVZ)(打地鼠版)
  • C++ 科目二 智能指针 [weak_ptr] (解决shared_ptr的循环引用问题)
  • 解决RabbitMQ设置TTL过期后不进入死信队列
  • 【鸿蒙OH-v5.0源码分析之 Linux Kernel 部分】005 - Kernel 入口 C 函数 start_kernel() 源码分析
  • EndnoteX9安装及使用教程
  • SQL:子查询
  • C语言刷题日记(附详解)(5)
  • 开源加密软件简介
  • 【C++学习】 IO 流揭秘:高效数据读写的最佳实践
  • C#使用TCP-S7协议读写西门子PLC(五)-测试程序
  • 经验——IMX6UL的uboot无法ping主机或Ubuntu
  • AUTOSAR-规范文档版本
  • 网络(四)——HTTP协议
  • comfyui中报错 Cmd(‘git‘) failed due to: exit code(128) 如何解决
  • 测试-Gatling 与性能测试
  • ESRGAN——老旧照片、视频帧的修复和增强,提高图像的分辨率
  • 跨界融合:EasyDSS+无人机视频直播推流技术助力行业多场景应用
  • Linux实操笔记2 Ubuntu安装Nginx的不同方法
  • QCustomPlot笔记(一)