当前位置: 首页 > news >正文

多尺度频率辅助类 Mamba 线性注意力模块(MFM),融合频域和空域特征,提升多尺度、复杂场景下的目标检测能力

         在伪装物体检测领域,现有方法大多依赖空间局部特征难以有效捕捉全局信息,而 Transformer 类方法虽能建模长距离依赖关系,却存在计算成本高、网络结构复杂的问题。同时,频域特征虽具备全局建模能力,可频繁的频域与空域转换会增加计算复杂度。此外,Mamba 方法凭借高效的注意力机制和轻量化设计,在降低计算成本方面展现出巨大潜力,但其在伪装物体检测中的应用尚未被充分探索。基于此,为解决传统方法在全局信息捕捉和计算效率上的不足,MFM 模块应运而生,它融合频域和空域特征,通过多尺度策略进一步提取全局信息,优化了传统基于 Transformer 的方法。

1.MFM(Multi-scale Frequency-Assisted Mamba-Like Linear Attention)原理

        MFM 模块的核心原理是将频域特征与类 Mamba 线性注意力机制相结合,以实现高效的全局特征建模。其借助快速傅里叶变换(FFT)将输入特征转换到频域,生成查询 Q、键 K 和值 V,通过频域注意力机制捕捉全局依赖关系,再经逆快速傅里叶变换(IFFT)转回空域。同时,引入线性注意力机制替代传统非线性 Softmax,降低计算复杂度,并利用选择性状态空间模型(如 MLLA)中的遗忘门机制(结合 LePE、RoPE 和 CPE 等位置编码),增强对长序列特征的处理能力。此外,通过多尺度结构(如采用不同尺寸的深度 wise 卷积)处理不同尺度的特征,结合频率权重模块(FWM)进行残差连接,强化频域信息的表示,从而在有效捕捉全局信息的同时,降低计算开销。

MFM 模块的设计融合了频域特征提取、多尺度处理及类 Mamba 线性注意力机制,具体结构如下:

  1. 输入预处理阶段
    输入特征 Ei​ 首先经过条件位置编码(CPE)处理,以增强特征的位置信息表征,随后通过层归一化(LN)稳定特征分布,得到张量 E~i​。这一步骤确保后续操作中特征的空间位置关系和数值稳定性。

  2. 多尺度特征分解与提取
    将 E~i​ 沿通道维度拆分为多个分支,每个分支先通过 1×1 卷积降低通道维度,再分别经过不同尺寸的深度 wise 卷积(如 3×3、5×5)生成多尺度特征张量。例如,采用 3×3 和 5×5 深度 wise 卷积捕捉不同感受野下的局部特征,使模块能够处理图像中不同大小的目标或细节。

  3. 线性注意力机制集成
    对每个尺度的特征张量,先通过激活函数(如 Sigmoid)进行非线性变换,再经 reshape 操作调整维度,输入线性注意力层 La​。线性注意力层采用类 Mamba 的选择性状态空间模型(SSM)结构,通过遗忘门机制(结合 LePE、RoPE 等位置编码)建模长距离依赖关系,替代传统 Transformer 的二次复杂度注意力,将计算复杂度降至线性级别。不同尺度的注意力结果经拼接(Φ)后得到融合特征 Ai​。

  4. 频域信息增强模块
    引入频率权重模块(FWM)强化频域特征表示:通过快速傅里叶变换(FFT)将输入特征转换至频域,经卷积、批归一化、GELU 激活等操作生成频域权重,再与原频域特征点乘,最后通过逆傅里叶变换(IFFT)转回空域,形成频域残差连接。该过程增强了特征中的全局频域信息,抑制背景噪声。

  5. 特征融合与输出
    将多尺度注意力融合特征 Ai​ 与频域增强后的特征进行点乘,再通过 1×1 卷积调整通道维度,得到 Fi1​。随后,Fi1​ 与 FWM 处理后的残差特征、原始输入特征 Ei​ 相加,并再次经过 CPE 编码,得到 Fi2​。最后,Fi2​ 与多层感知机(MLP)处理后的结果、层归一化(LN)输出融合,形成最终输出特征 Fi​,实现多尺度频域 - 空域特征的高效整合。

        整个结构通过多尺度分解、线性注意力机制和频域残差连接,在降低计算复杂度的同时,增强了模型对全局上下文和多尺度目标的表征能力,适用于伪装物体检测等需要捕捉复杂特征依赖关系的任务。

2. MFM习作思路​

一)医学领域

在医学相关论文中,可描述为:“针对医学影像中病变区域与周围组织相似度高、边界模糊等检测难题,提出将 MFM 模块应用于医学伪装物体(如病变区域)检测。该模块通过多尺度频域 - 空域特征融合,有效捕捉医学影像中病变组织的全局结构特征,抑制复杂背景噪声,提升对微小病变或边界模糊病变的检测精度。同时,基于类 Mamba 的线性注意力机制,降低了模型计算复杂度,使其适用于医学影像的实时分析与诊断。”

(二)遥感领域

在遥感领域论文中可表述为:“在遥感图像中,伪装目标(如军事设施、隐藏建筑等)常与自然背景高度融合,传统方法难以有效检测。MFM 模块通过多尺度频域注意力提取遥感图像中的全局上下文信息,增强对不同尺度伪装目标的特征表示,克服了遥感图像中目标尺度变化大、背景复杂的挑战。结合类 Mamba 的轻量化设计,该模块在保证检测精度的同时,大幅降低了计算量,适用于大规模遥感图像的高效处理。”

(三)缺陷检测领域

对于缺陷检测领域,可这样描述:“工业产品表面缺陷常因与正常区域纹理、颜色相似而难以识别,MFM 模块被引入缺陷检测任务。其通过多尺度频域 - 空域特征协同处理,有效提取缺陷的全局特征,区分缺陷与正常区域的细微差异,提升对微小缺陷、复杂纹理表面缺陷的检测能力。基于线性注意力的类 Mamba 机制,使模型在工业实时检测场景中具有更高的效率和实用性。”

(四)农业领域

在农业相关论文中,可描述为:“农业场景中,病虫害植株、杂草等伪装目标与正常作物外观相似,检测难度大。MFM 模块通过融合多尺度频域和空域特征,捕捉农业目标的全局光谱与结构特征,增强对病虫害早期症状、杂草与作物的区分能力。类 Mamba 的线性注意力机制降低了模型计算复杂度,使其能够在农业无人机、田间机器人等设备上实现实时检测,为精准农业提供技术支持。”

3. YOLO与MFM的结合     

        MFM 与 YOLO 结合时,借多尺度频域 - 空域特征融合强化 YOLO 对小目标、多尺度目标的特征提取能力,提升复杂场景下的检测精度;频域全局建模抑制背景干扰,与 YOLO 的强泛化性互补,增强模型在光照变化、复杂背景下的鲁棒性。

4. MFM代码部分

多尺度频率辅助类 Mamba 线性注意力模块(MFM),使用类mamba模块,融合频域和空域特征,提升多尺度、复杂场景下的目标检测能力_哔哩哔哩_bilibili

YOLO12模型改进方法,快速发论文,总有适合你的改进,还不改进上车_哔哩哔哩_bilibili

 代码获取:YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

5. MFM引入到YOLOv12中

第一: 先新建一个v12_changemodel,将下面的核心代码复制到下面这个路径当中,如下图如所示。E:\Part_time_job_orders\YOLO_NEW\YOLOv12\ultralytics\v12_changemodel。

            ​​​​​​         

第二:在task.py中导入

 ​​​                

第三:在task.py中的模型配置部分下面代码

                   ​​​​​​​​​​​​​​ 

第四:将模型配置文件复制到YOLOV12.YAMY文件中

       ​​​​​​​​​​​​​​ 

     ​​​​​​​ ​​​​​​​​​​​​​​ ​​​​​​​ ​​​​​​​​​​​​​第五:运行代码


from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv12.yamy文件搭建模型并加载预训练权重训练模型model = YOLO("/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/models/12/yolo12_MFMamba_Like_Linear Attention.yaml")# .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt')  # build from YAML and transfer weightsresults = model.train(data="/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/datasets/fire_smoke.yaml",epochs=300,imgsz=640,batch=4,# cache = False,# single_cls = False,  # 是否是单类别检测# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)

 上面是原模型,下面是改进模型

改进后的模型

 ​​​​​​​​​​​​​​ 

http://www.lryc.cn/news/587959.html

相关文章:

  • 华曦达港股IPO丨AI Home生态构建,开启智能家居新篇章
  • 《Librosa :一个专为音频信号处理和音乐分析设计的Python库》
  • ServBay Windows 1.3.0 更新!新增系统监控与 Nginx 配置升级
  • [spring6: Resource ResourceLoader]-加载资源
  • GPT-4和Claude哪个好
  • UML建模和设计模式——常考点整理
  • VScode链接服务器一直卡在下载vscode服务器,无法连接成功
  • 视频动态范围技术演进:从SDR到HDR的影像革命
  • 【Unity】MiniGame编辑器小游戏(十三)最强射手【Shooter】(下)
  • wpf 实现窗口点击关闭按钮时 ​​隐藏​​ 而不是真正关闭,并且只有当 ​​父窗口关闭时才真正退出​​ 、父子窗口顺序控制与资源安全释放​
  • 单向链表、双向链表、栈、队列复习(7.14)
  • 软件测试中的BUG等级与生命周期详解
  • Java 中的异步编程详解
  • Git根据标签Tag强制回滚版本
  • LVS初步学习
  • LVS(Linux Virtual Server)集群技术详解
  • 【第一章编辑器开发基础第二节编辑器布局_2GUI中滚动列表(2/4)】
  • langflow搭建带记忆功能的机器人
  • 深入了解linux系统—— 进程信号的产生
  • 核电概念盘中异动,中核科技涨停引领板块热度
  • 机器学习/深度学习训练day1
  • 穿透、误伤与回环——Redis 缓存防御体系的负向路径与治理艺术
  • VirtualBox 安装 CentOS7 后无法获取 IP 的排查与修复
  • mysql 与redis缓存一致性,延时双删 和先更新数据库,再删除缓存,哪个方案好
  • 深浅拷贝以及函数缓存
  • 机床自动化中的“方言翻译官”:EtherNet/IP 转 PROFIBUS DP 实战手记
  • Redis作缓存时存在的问题及其解决方案
  • TensorFlow深度学习实战(26)——生成对抗网络详解与实现
  • 聚宽sql数据库传递
  • sqlserver迁移日志文件和数据文件