当前位置: 首页 > news >正文

信息整合注意力IIA,通过双方向的轻量级注意力机制强化目标关键特征并抑制噪声,提升特征融合的有效性和空间位置信息的保留能力。

        在众多计算机视觉任务中,尤其是涉及多尺度特征融合的场景(如遥感图像分割、通用目标检测等),编码器 - 解码器架构通过跳跃连接融合不同层级特征时,常面临两个关键问题:一是编码器输出的局部细节特征与解码器输出的全局语义特征在融合过程中,空间位置信息容易被稀释或丢失,导致目标定位精度下降,尤其是小目标和边界区域表现更明显;二是复杂场景中存在的背景噪声、相似纹理干扰等,会使得特征融合时有效信息被淹没,进而引发类别混淆(如将前景中的相似物体误分为同一类,或把背景噪声误判为目标)。传统的注意力机制虽然能在一定程度上突出重要特征,但往往依赖全连接层、自注意力等计算密集型结构,会显著增加模型的参数和计算量,难以在追求高效推理的轻量级网络中实现精度与效率的平衡。正是在这样的背景下,信息整合注意力(IIA)被提出,其核心目标是通过轻量且针对性的设计,重构特征中的空间位置信息,强化有效特征的融合,同时避免引入过多计算负担。

1.IIA原理

        IIA 的核心原理是基于图像特征的空间位置不变性规律,通过双方向的序列信息捕捉与动态调制,实现对关键特征的精准增强和噪声的有效抑制。具体来说,它先将编码器的局部特征与解码器的全局特征进行融合,形成包含多尺度信息的基础特征;然后,针对特征图的高度和宽度两个空间维度,分别提取通道内的序列信息 —— 既通过平均池化获取全局趋势,又通过最大池化捕捉局部显著特征,以此全面掌握特征的空间分布;接着,利用轻量级的 1D 卷积对这些序列信息进行处理,学习出能反映不同空间位置重要性的注意力调制因子,这些因子会根据特征内容动态调整,在目标区域赋予高权重以强化其特征,在噪声区域赋予低权重以削弱干扰;最后,将调制后的特征与原始融合特征进行残差融合,既保留基础信息,又突出关键内容,从而提升特征的判别能力。

        IIA 的结构围绕 “特征融合 - 信息提取 - 调制增强” 的逻辑展开,具体可分为四个连续的操作环节:
        首先是特征融合环节,将来自编码器的低层级局部特征图与解码器的高层级全局特征图按照通道维度进行拼接,形成一个包含丰富信息的融合特征图,为后续处理提供基础。
        其次是特征重塑与信息提取环节,将融合特征图分别重塑为两种形态:一种是聚焦高度方向的特征形态,另一种是聚焦宽度方向的特征形态,以此分别针对性处理两个空间维度的信息;之后,对这两种重塑后的特征图,沿各自对应的空间维度(高度方向特征沿宽度维度池化,宽度方向特征沿高度维度池化)分别执行平均池化和最大池化操作,得到高度方向和宽度方向的序列特征,这些序列特征既包含全局统计信息,又涵盖局部显著信息。
        然后是注意力调制因子生成环节,将每个方向上的平均池化结果与最大池化结果进行拼接,形成综合序列特征;接着,通过一个核大小为 7 的 1D 卷积对综合序列特征进行处理,压缩通道数量并捕捉序列间的依赖关系,再经过批归一化操作稳定训练过程,最后通过 Sigmoid 激活函数生成高度方向和宽度方向的注意力调制因子,这些因子的数值在 0 到 1 之间,用于表示对应空间位置的重要程度。
        最后是特征增强与输出环节,将高度方向和宽度方向的注意力调制因子分别与融合特征图进行逐元素相乘,得到两个方向上被调制增强的特征;随后,将这两个调制特征与原始的融合特征图进行残差相加(即元素级别的相加),最终输出经过增强的特征图,该特征图既保留了原始信息,又强化了关键区域的特征响应,抑制了噪声干扰。 

2. IIA在不同领域的应用描述

IIA 在目标检测中的优点

        IIA 在目标检测中能显著提升模型对复杂场景的适应能力。其通过高度和宽度双方向的注意力调制,可精准定位目标所在的空间区域,无论是小目标的微弱特征,还是被部分遮挡目标的局部轮廓,都能被针对性增强,有效解决了传统特征融合中目标特征易被背景噪声掩盖的问题;同时,它对不同尺度目标的特征赋予动态权重,在多目标密集场景中,能避免目标间的特征干扰,让模型更清晰地区分每个目标的边界和类别属性,且轻量级的结构设计不会过多增加计算负担,保证了检测的实时性,从而在提升检测精度的同时,维持了高效的推理速度。

IIA 在分割中的优点

        在分割任务中,IIA 凭借对空间位置信息的精准捕捉和特征融合能力,能大幅提升分割结果的细腻度和准确性。它通过强化编码器传递的局部细节特征与解码器提供的全局语义特征之间的关联,使分割边界更加清晰 —— 对于小目标(如遥感图像中的路灯、行人),能增强其完整的特征响应,避免分割不完整的问题;对于大区域(如大面积的植被、建筑群),能通过全局与局部特征的动态融合,保证区域内部的一致性,减少出现空洞或错分的情况;此外,针对相似类别的特征(如不同种类的植物、不同材质的地面),IIA 能通过空间位置的相对关系强化类别差异,降低误分率,让分割结果更贴合真实场景。

3. IIA与yolo结合       

        YOLO 系列模型以快速推理为核心优势,IIA 的轻量级结构(无需复杂的全连接层或自注意力机制)不会显著增加其计算量,能很好地适配 YOLO 对实时性的要求;同时,IIA 对目标空间位置特征的增强能力,能帮助 YOLO 在处理小目标、密集目标或复杂背景时,提升边界框预测的精准度,让模型在保持高速的同时,具备更强的场景适应能力。

4. IIA代码部分

信息整合注意力IIA,通过双方向注意力机制重构空间位置信息,动态增强目标关键特征并抑制噪声_哔哩哔哩_bilibili

YOLO12模型改进方法,快速发论文,总有适合你的改进,还不改进上车_哔哩哔哩_bilibili

 代码获取:YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

5. IIA引入到YOLOv12中

第一: 先新建一个v12_changemodel,将下面的核心代码复制到下面这个路径当中,如下图如所示。E:\Part_time_job_orders\YOLO_NEW\YOLOv12\ultralytics\v12_changemodel。

            ​​​​​​           

第二:在task.py中导入

        

第三:在task.py中的模型配置部分下面代码

                    ​​​​​​​​​​​​​​ ​​​​​​​​​​​​​​   

第四:将模型配置文件复制到YOLOV12.YAMY文件中

       ​​​​​​​​​​​​​​ ​​​​​​​​​​​​​​ ​​​​​​​​​​​​​​

     ​​​​​​​ ​​​​​​​​​​​​​​ ​​​​​​​ ​​​​​​​​​​​​​第五:运行代码


from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv12.yamy文件搭建模型并加载预训练权重训练模型model = YOLO("/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/models/12/yolo12_HFP.yaml")# .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt')  # build from YAML and transfer weightsresults = model.train(data="/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/datasets/fire_smoke.yaml",epochs=300,imgsz=640,batch=4,# cache = False,# single_cls = False,  # 是否是单类别检测# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)
http://www.lryc.cn/news/595130.html

相关文章:

  • I2S音频的时钟
  • C/C++ 详谈结构体大小计算(内存对齐)
  • 移动端轻量级神经网络推理框架
  • 蚂蚁数科AI数据产业基地正式投产,携手苏州推进AI产业落地
  • 解决mac chrome无法打开本地网络中的内网网址的问题
  • ELN和LIMS的区别
  • Django关于ListView通用视图的理解(Cursor解释)
  • Java基础教程(010):面向对象中的this和就近原则
  • 算法训练营DAY37 第九章 动态规划 part05
  • 两个相机的视野 拼接算法
  • 【C++】stack和queue拓展学习
  • DevCon 6记录
  • 从 “能用“ 到 “好用“:中小制造企业数字化转型中的 IT 系统优化管理策略
  • 扬声器测试解决方案
  • AWS Certified Cloud Practitioner 认证考试总结
  • Centos安装最新docker以及ubuntu安装docker
  • 旋转目标检测(Rotated Object Detection)技术概述
  • ESP32-S3学习笔记<1>:ESP-IDF的安装与命令
  • 【编程语言】C、C++、C#深度对比:三种语言的演进历程与应用场景
  • Windows VS2019 编译 Apache Thrift 0.15.0
  • 倒排索引实操
  • CS231n-2017 Lecture4神经网络笔记
  • selenium爬取图书信息
  • 通信刚需小能手,devicenet转PROFINET网关兼容物流分拣自动化
  • 从cv610的demo原理看,i2c的上拉电阻为 1k
  • day27 力扣332.重新安排行程 力扣51. N皇后 力扣37. 解数独 力扣455.分发饼干 力扣376. 摆动序列 力扣53. 最大子序和
  • 【设计模式C#】工厂方法模式(相比简单工厂模式更加具有灵活性和扩展性的工厂模式)
  • 力扣15:三数之和
  • 测量误差溯源:系统误差与随机误差的数学建模与分离方法
  • 结构型模式-架构解耦与扩展实践