当前位置: 首页 > news >正文

混合域注意力机制(空间+通道)

在计算机视觉任务中,空间域注意力通常关注图像中不同位置的重要性,例如突出图像中的关键对象或区域。而通道域注意力则侧重于不同通道(特征图)的重要性,决定哪些特征对于任务更具判别力。混合域注意力机制结合了空间域注意力机制与通道注意力机制。它同时考虑空间和通道维度的重要性,通过学习每个空间位置和通道的权重,动态调整特征图中不同位置和通道的重要性,以增强模型对视觉任务的表达能力和性能。
具体来说,它通常会经过以下步骤实现:
1. 输入:假设输入特征图的尺寸为C×H×W,其中C是通道数,H和W分别是高度和宽度。
2. 计算空间域注意力:空间注意力权重通过对特征图的空间位置进行分析得到。
3.计算通道注意力: 通道注意力权重则通过对特征图的通道进行分析,例如使用全局平均池化或全局最大池化来汇总通道信息,然后经过全连接层等操作生成权重。
4. 特征加权融合:将得到的空间和通道注意力权重与原始特征图相乘,实现对特征的重新加权和聚焦。


下面分享几篇经典的混合域注意力机制论文。

1.CBAM: Convolutional Block Attention Module

论文地址:https://arxiv.org/abs/1807.06521

文章中提出注意力机制不仅能够提示网络应该关注那些区域,还能够增强这些区域的重要性。所以,本文结合注意力机制提出了一个新的网络模块(CBAM),通过关注通道和空间信息,来达到增强有效的特征,抑制不太有效的特征。

图1

如图1所示,CBAM的结构由两部分组成。一是通道注意力模块(Channel attention module),二是空间注意力模块(Spatial attention module)。下面就来看看这两部分的结构。

1.通道注意力模块(Channel attention module)

图2

如图2所示,通道空间注意力模块由三个操作组成。具体来说,首先分别使用全局平均池化和全局最大池化生成两个不同的空间描述符F_{avg}^CF_{max}^C,用来代表空间信息。然后,将F_{avg}^CF_{max}^C送入到一个共享的MLP当中去生成不同的通道注意力分数。最后,将MLP输出的两个不同的注意力分数相加,并通过Sigmoid函数激活便得到了最终的通道注意力权重。

2.空间注意力模块(Spatial attention module)

图3

如图3所示,空间空间注意力模块由三个操作组成。与通道注意力模块不同的是,空间注意力模块首先分别使用全局平均池化和全局最大池化沿通道轴生成两个不同的特征图F_{avg}^s \in R^{1 \times H \times W}F_{max}^s \in R^{1 \times H \times W}。然后,将F_{avg}^sF_{max}^s沿通道拼接在一起,并通过一个7 \times 7的卷积去生成通空间注意力图。最后,通过Sigmoid函数激活便得到了最终的空间注意力权重。

此外,文章中还在ResBlock(ResNet)中集成了CBAM,结构如下图4所示。

图4

2.Dual Attention Network for Scene Segmentation

论文地址:https://arxiv.org/abs/1809.02983

文章中提出了一种双注意网络(Dual Attention Network, DANet,网络结构如下图5所示)来自适应地整合局部特征及其全局依赖关系。具体来说,它结合了自注意力机制(transformer)设计了两个模块(Position Attention Module和Channel Attention Module),用来捕获空间和通道维度上的特征依赖关系,然后将这两个模块的输出进行融合,进一步增强特征的表达。下面就来看看这两个模块的结构。

图5

1.Position Attention Module(PAM)

图6

PAM的结构如图6所示,它通过以下步骤来实现。

1. 输入特征图A \in R^{C \times H \times W},其中C是通道数,H和W分别是高度和宽度。

2. 将A用不同卷积层生成新的特征图B和C,其中B和C都\in R^{C \times H \times W}。然后将B和C除通道外拉成一条向量变形成R^{C \times HW}

3. 将C和B的转置进行矩阵乘法,再使用softmax操作即得到空间注意力图S\in R^{HW \times HW}

4.将A用卷积层生成特征图D,并将D拉成一条向量变形成R^{C \times HW}。然后,再将D与上一步得到的空间注意力图S的转置执行矩阵乘法,并将结果重塑成R^{C \times H \times W}

5. 最后,对上一步得到的结果乘以尺度参数\alpha,并与原始输入特征执行元素加法,便得到最终的输出特征。输出特征实现了有选择性的聚合上下文信息。

2.Channel Attention Module(CAM)

图7

CAM的结构如图6所示,它通过以下步骤来实现。

1. 输入特征图A \in R^{C \times H \times W},其中C是通道数,H和W分别是高度和宽度。

2. 将A变形成R^{C \times HW},与A的转置执行矩阵乘法,然后通过softmax操作得到通道注意力图X\in R^{C \times C}

4.将A的转置与上一步得到的通道注意力图X执行矩阵乘法,并将结果重塑成R^{C \times H \times W}

5. 最后,对上一步得到的结果乘以尺度参数\beta,并与原始输入特征执行元素加法,便得到最终的输出特征。


混合域注意力机制能够有效地提升模型的性能,增强模型对关键信息的捕捉能力,从而在图像分类、目标检测、语义分割等计算机视觉任务中取得更好的效果。

最后,欢迎关注公众号“AI小家”。

http://www.lryc.cn/news/413558.html

相关文章:

  • springboot长春旅游安全地图平台-计算机毕业设计源码90075
  • apex正则表达式匹配富文本字段内容,如何只匹配文本而忽略富文本符号
  • 空气净化器对去除宠物毛有效吗?小型猫毛空气净化器使用感受
  • vue的nextTick是下一次事件循环吗
  • 5.4.软件工程-系统设计
  • Apache Kylin与BI工具集成:数据可视化实战
  • 通过idea图形化界面就能push到github流程
  • C语言初阶(10)
  • Javaweb用过滤器写防跳墙功能和退出登录
  • 小试牛刀-Telebot区块链游戏机器人(TS升级)
  • MySQL:Prepared Statement 预处理语句
  • Java:Thread类以及线程状态
  • 如何通过前端表格控件实现自动化报表?
  • Upload-labs靶场Pass01-Pass21全解
  • 使用openpyxl库对Excel数据有效性验证
  • 【算法】浅析深度优先搜索算法
  • 鸿蒙系统开发【ASN.1密文转换】安全
  • 【期末复习】软件质量保证与测试
  • CTFHub——XSS——反射型
  • docker 部署 libreoffice
  • 预测各种开发语言的市场占比
  • mybatisplus 通用字段自动赋值与更新
  • 图像生成中图像质量评估指标—FID介绍
  • uniapp全局分享功能实现方法(依赖小程序右上角的分享按钮)
  • Redis中BigKey的判定查找建议
  • Swift-语法基础
  • 面向对象进阶:多态、内部类、常用API
  • 寸(英寸)、码、斤、公顷等日常中大概的换算单位你清楚吗
  • Python面试宝典第26题:最长公共子序列
  • 接口测试学习笔记2