当前位置: 首页 > news >正文

【论文阅读】SegNeXt:重新思考卷积注意力设计

《SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation》
原文:https://github.com/Visual-Attention-Network/SegNeXt/blob/main/resources/paper.pdf
源码:https://github.com/Visual-Attention-Network/SegNeXt

1、简介

提出了SegNeXt用于语义分割的简单卷积网络架构,核心是一种比transformer的自注意力更有效的编码方式进行上下文信息的编码,专注分割性能改进的几个组件,设计出了这种新型卷积注意力网络,性能有不小的提升。

2、网络

编码器

CNN中编码器常采用金字塔结构,作者提出了一种类似ViT但是没有自注意力机制的结构,设计了一种多尺度卷积注意模块(MSCA)。MSCA模块中包括:
1、深度卷积:用于聚合局部信息
2、多分支深度条带卷积:用于捕获多尺度上下文信息
3、1*1卷积:建模不同通道之间的关系
在这里插入图片描述

解码器

研究了三种简单的解码器结构,a表示SegFormer中的基于MLP的结构;b是直接将编码器的输出作为解码器的输入,比如ASPP、PSP和DANet等;c是作者采用的结构,聚合了最后三层的特征,并使用轻量级模块建模全局上下文。与SegFormer(聚合第一到第四阶段的特征)不同,作者只在解码器聚合了最后三个层的特征,主要原因是第一阶段的特征包含过多低级特征影像模型性能。下面作者证明SegNeXt优于基于Transformer的SegFormer和HRFormer。
在这里插入图片描述

部分实验结果

遥感数据集iSAID
在这里插入图片描述
模型参数量及计算量
在这里插入图片描述

http://www.lryc.cn/news/428132.html

相关文章:

  • 【C++】String类:标准库介绍
  • MS523非接触式读卡器 IC
  • 仓颉编程语言入门 -- Socket 编程与HTTP 编程概述
  • Oracle基本SQL操作-用户角色权限管理
  • Qt-信号和槽(8)
  • 80.游戏的分辨率修改思路与分析
  • MaxKB(二):Ubuntu24.04搭建maxkb开发环境
  • c#实现数据导出为PDF的方式
  • 【联想电脑】:使用拓展坞后转接HDMI,无法识别显示屏
  • Verilog刷题笔记53
  • GoFly快速开发后台框架-后端接口请求返回403提示码就跨域问题/请求端域名拦截问题
  • 设备实时数据采集:开启制造业智能化、自动化的新篇章
  • 【python与java的区别-03(集合、字典)】
  • Java继承
  • Kafka集群搭建的两种方式
  • 两种变量初始化方法的区别
  • 群晖把硬盘共享给win10(虚拟机或物理机)的两种办法
  • Java-Web面试题汇总
  • 数字化技术分别有哪些,数字化技术特点和优势是什么?
  • 微服务CI/CD实践(一)环境准备及虚拟机创建
  • 【SpringBoot】优化慢启动应用的用户体验
  • String str=“i“ 与 String str=new String (“i“) 一样吗?
  • 【数据结构】二叉树链式结构的实现
  • 如何有效找到目标客户群体?
  • 机器学习-混淆矩阵
  • 数据结构----栈
  • STL六大组件
  • 【机器学习】CNN的数学基础
  • 最小路径和[中等]
  • 【题库】——数组 小鱼比可爱