【TGRS 2025】可变形交互注意力Deform-Interac-Att,即插即用,涨点神器!
一、论文信息
论文题目:An Adaptive Dual-Supervised Cross-Deep Dependency Network for Pixel-Wise Classification
中文题目:一种自适应的双重监督交叉深度依赖网络用于像素级分类
论文链接:https://ieeexplore.ieee.org/abstract/document/10841446
所属机构:教育部智能感知与图像理解重点实验室,国际智能感知与计算研究中心,西安电子科技大学人工智能学院
核心速览:本文提出了一种名为ADCD-Net(自适应双监督交叉深度依赖网络)的模型,用于像素级分类任务,特别是在融合多源数据(如多光谱和全色图像)时,通过两个训练阶段减少语义差异并增强特征表示能力。
二、论文概要
Highlight
图 4. (a) 西安,(b) 呼和浩特,以及 (c) 南京数据集:五列分别代表多光谱图像(MS图像),全色图像(PAN图像),训练样本的真实标签,测试样本的真实标签,以及相应的标签。
1. 研究背景:
研究问题:随着遥感技术的进步,融合多源数据(如多光谱和全色图像)在图像处理任务中变得越来越重要。然而,涉及语义差异的图像融合可能会阻碍模型学习有效的特征映射。如何在融合过程中重建更丰富、更一致的特征,是当前研究面临的关键问题。
研究难点:当前算法通常关注不同模态特征之间的交互,但往往忽视了同一模态内不同层次特征之间的交互。此外,融合分类任务主要依赖于有监督的标记训练样本计算损失,当训练样本存在模态差异或本质上具有挑战性时,模型可能难以有效学习语义信息和融合过程,导致重要共同信息的丢失,从而限制了分类任务的准确性上限。
文献综述:文章提到了基于卷积神经网络(CNNs)、变换器(Transformers)和生成对抗网络(GANs)的深度学习方法在多源遥感图像处理算法中的应用。CNNs通过卷积操作保持图像的空间结构信息,并通过参数共享机制提高训练效率。Transformers通过自注意力机制适应性地关注输入序列的重要部分,适用于处理序列化图像数据。GANs则通过生成器和判别器之间的对抗游戏来隐式完成特征提取、特征融合和图像重建。然而,这些方法在处理涉及长序列的任务时仍存在计算复杂度高和局限性。
2. 本文贡献:
自监督学习策略:提出了一种自监督学习策略(SPS),用于跨模态学习深度特征,以减少语义差异并挖掘非单一特征。该策略通过感知损失计算,增强多光谱(MS)和全色(PAN)图像的语义相似性。
深度时间Mamba:设计了深度时间Mamba模块(DTM-Module),用于交互式学习网络各层的输出,参与深度特征强化,提高语义信息的分类性能。
可变形交互注意力:提出了可变形交互注意力模块(DIA-Module),以消除通道冗余,增强空间位置记忆和特征判别能力,进一步增强特征表示能力。
三、创新方法
图3. 可变形交互注意力模块(DIA-Module).
DIA-Module通过不同的池化策略生成具有属性差异的特征,并利用特定的梯度调整方法对不同属性特征进行调制,重建特征块的形态并减少冗余样本点信息。同时,不同属性特征之间的交互鼓励了神经元和可学习参数在训练过程中的更大参与,从而增强了掩码空间特征的表示能力。实现过程为:
1. 特征压缩:首先对输入的特征Fd进行全局平均池化(GA)和最大池化(GM),得到具有全局平滑性和局部纹理属性的特征Fa1和F1m。
2. 特征降采样:为了保持输出特征块相邻样本点之间的大相关性,将Fa1和F1m降采样为F2a和F2m,作为权重学习的主要输入。
3. 特征重构:通过设置相互依赖的调制系数,改变F2a和F2m的原始形状,以实现特征重构。在MS分支中,为F2m设置较小的梯度缩放因子λ1,以稳定获取高兼容性的纹理特征;为F2a设置较大的梯度缩放因子λ2,以快速收敛全局特征。
4. 特征上采样与掩码生成:将F3a和F3m上采样以保持相邻点的相似性,然后将它们拼接在一起输入到卷积层和sigmoid函数中生成掩码Fmask。
5. 特征融合:将生成的掩码Fmask与原始特征Fd相乘,得到最终的特征Fdi。
四、实验分析
一、实验设计
1. 数据集描述:使用了包括西安、呼和浩特、南京和特伦托在内的多个遥感数据集进行实验。每个数据集均包含多光谱和全色图像,以及相应的地面真实标签。
2. 实验设置:实验中使用了Adam优化器,设置了权重衰减、学习率、批次大小等参数。评估指标包括总体精度(OA)、平均精度(AA)和Kappa统计量。
3. 超参数选择:通过控制变量技术,对分类损失比w进行了定量分析,确定了最佳的损失比设置。
4. 消融研究:在南京数据集上进行了组合实验,分析了所提语义感知SPS、可变形交互注意力模块和深度时间Mamba模块的有效性和必要性。
二、结果与分析
1. 分类性能:ADCD-Net在多个数据集上均取得了最优的分类结果,包括总体精度、平均精度和Kappa统计量。
2. 模型比较:与CRHFF、AM3Net、GCFNet、MFT、DFINet、NNCNet和ISSP-Net等七种先进方法进行了比较,ADCD-Net在多数类别中表现出色,特别是在土壤、建筑物和阴影等类别中。
3. 迁移学习:在HSI和LiDAR图像融合分类的迁移实验中,ADCD-Net同样表现出色,分类准确率最高,显示出强大的迁移学习能力。
五、代码
https://github.com/AIFengheshu/Plug-play-modules
2025年全网最全即插即用模块,免费分享!包含人工智能全领域(机器学习、深度学习等),适用于图像分类、目标检测、实例分割、语义分割、全景分割、姿态识别、医学图像分割、视频目标分割、图像抠图、图像编辑、单目标跟踪、多目标跟踪、行人重识别、RGBT、图像去噪、去雨、去雾、去阴影、去模糊、超分辨率、去反光、去摩尔纹、图像恢复、图像修复、高光谱图像恢复、图像融合、图像上色、高动态范围成像、视频与图像压缩、3D点云、3D目标检测、3D语义分割、3D姿态识别等各类计算机视觉和图像处理任务,以及自然语言处理、大语言模型、多模态等其他各类人工智能相关任务。持续更新中.....