DC-Mamba:一种用于热红外无人机图像盲超分辨率的退化感知跨模态框架
DC-Mamba:一种用于热红外无人机图像盲超分辨率的退化感知跨模态框架
摘要
——无人机热成像的低分辨率问题对地面目标的理解与分析构成了重大障碍。利用易获取的高分辨率可见光图像,为提升无人机热成像质量提供了一种颇具前景的解决方案。然而,现有方法主要聚焦于简单的退化条件,却忽略了现实场景中退化情况的复杂性(如模糊和噪声),难以满足实际应用需求。在本文中,我们提出了一种退化感知跨模态Mamba(DC-Mamba)框架,通过融合退化信息与跨模态线索,实现无人机热图像的超分辨率(SR)重建。该方法首先借助自监督学习框架,直接从输入图像中提取退化信息;随后,通过所设计的退化感知模块,利用这些信息指导重建过程,增强模型对失真区域的敏感性。此外,我们引入了专注于视觉任务的状态空间模块(SSM),以捕捉长距离空间依赖关系,进而提升特征的适应性。为解决模态差异问题,我们构建了跨模态特征融合框架,从交互、细化和增强三个层面利用可见光线索,提高热图像的重建质量。大量实验表明,所提方法在多个评估指标上均优于当前最先进的超分辨率方法,能够提供更逼真的细节和更优异的性能。
关键词——退化信息、跨模态融合、状态空间模块、热图像超分辨率、无人机
1. 引言
热图像具有穿透力强、全天候工作以及能够捕捉热量分布信息等优势。这些特性使得热图像在夜视监控[1]、军事侦察[2]、建筑检测[3]和灾害救援[4]等领域得到了广泛应用。然而,利用无人机平台获取高分辨率(HR)热成像面临着重大挑战。无人机通常在高空作业,导致低分辨率(LR)热图像容易出现运动模糊和大气湍流,从而造成细节丢失,给生成高分辨率热图像带来了技术难题。
为了利用低分辨率图像获取高分辨率图像,研究人员开发了各种图像超分辨率算法,如单图像超分辨率(SISR)方法[5]-[8],由于细节损失较小,模型能够相对容易地重建清晰图像。但是,在面对大规模超分辨率任务时,低分辨率输入图像包含的高频细节非常有限,导致重建结果出现边缘模糊和纹理过度平滑的问题。此外,在恢复无人机热图像中的小元素和稀疏特征时,细节丢失问题进一步加剧。而且,由于许多单图像超分辨率方法缺乏全局上下文感知能力,它们无法准确重建大规模无人机场景中的纹理或局部结构。文献[9]中的方法可能会生成人工高频信号来填补缺失的细节,导致纹理不自然或出现重复伪影,严重降低图像质量。
为了获得更好的重建结果,近年来的研究主要集中在基于高分辨率可见光图像引导的热图像超分辨率方法[10]。通过引入可见光图像丰富的细节和纹理信息,引导式超分辨率方法可以弥补热图像中缺失的信息,从而提高热图像的清晰度和细节表现力。然而,由于存在显著的模态差异,从可见光图像转移到热图像的纹理信息可能不够准确,导致恢复后的热图像出现不自然或不真实的细节。此外,由于无人机平台的成像条件复杂,热图像和可见光图像之间的场景对齐并不总是准确的[11],任何对齐误差都可能在跨模态特征转换过程中导致伪影或关键信息丢失。
因此,与自然场景中的可见光图像相比,无人机热图像由于波长特性,通常分辨率较低,并且经常受到运动模糊和大气湍流的影响,导致图像细节丢失。具体而言:1)热对比度的复杂性和热图像中噪声的存在,使得图像各部分之间的差异不太明显,进一步削弱了图像细节的显著性;2)在空间依赖性方面,由于无人机的成像高度,图像元素之间的空间关系往往模糊不清,特别是小尺寸元素的有效信息在无人机图像中显得稀疏。因此,超分辨率方法必须能够从有限的图像信息中提取有效的结构信息,以应对有效信息稀疏带来的挑战;3)热图像和可见光图像之间存在显著的模态差异。可见光图像主要依赖颜色和形状特征,而热图像则侧重于温度分布。这种模态差异给特征转换带来了巨大挑战,并常常导致信息丢失。因此,超分辨率方法需要设计有效的模态交互和增强策略,以解决模态对齐和特征互补问题,并充分利用来自不同传感器的多源信息来提高热图像的质量。
为了解决上述问题,本文提出了DC-Mamba框架,旨在探索可见光图像中的跨模态线索和热图像中的退化信息,以指导无人机热图像的超分辨率重建。1)首先,我们提出了一种自监督学习框架,直接从输入图像中提取退化信息。然后设计了一个退化感知(DA)模块,利用退化表示来恢复低分辨率热图像,该模块通过调制卷积核来提高对显著失真区域的敏感性,并使网络能够聚焦于关键区域。此外,DA模块还融入了通道自适应机制,以强调重要的温度特征,从而提高重建保真度。2)在空间依赖性方面,我们引入了一种基于状态空间模型的特征提取方法,以替代传统的Transformer框架。通过集成专注于视觉任务的状态空间模型(VFSSM),我们的方法能够有效捕捉长距离空间依赖关系,同时增强特征的适应性。这一创新使得特征融合和转换更加高效,提高了空间关系建模能力。3)为了处理模态差异,我们开发了一种跨模态特征融合框架,利用可见光图像线索来指导无人机热图像的超分辨率重建。该框架从三个层面融合特征:跨模态特征交互、细化和增强。交互层面由并行的通道和空间注意力模块组成,优先处理重要细节并抑制噪声,以实现有效的特征融合。细化层面通过自注意力机制进一步提高质量,该机制动态分配权重,从而捕捉多尺度关系并提高对细微变化的敏感性。增强层面采用具有膨胀卷积、池化操作和特征融合的三分支架构,以实现显著的信息增强和优化。
总之,本文的主要贡献如下:
- 提出了一种自监督学习方法,从低分辨率热图像中提取退化信息,并设计了一个退化感知模块,以提高无人机热图像超分辨率重建的敏感性和准确性。
- 引入了一个残差状态空间模块,替代传统的Transformer框架,利用专注于视觉任务的状态空间模型(VFSSM)有效捕捉长距离空间依赖关系。这一创新提高了超分辨率过程中的特征适应性和空间表征能力。
- 开发了一种跨模态特征融合框架,利用可见光图像线索指导无人机热图像的超分辨率重建。该框架从跨模态特征交互、细化和增强三个层面融合特征,有效提高了热图像的质量。
- 进行了大量实验,结果表明我们的方法优于当前最先进的单图像超分辨率方法和引导式图像超分辨率方法,能够恢复更真实的细节,并在评估指标和感知效果上有所提升。
2. 相关工作
A. 单图像超分辨率方法
单图像超分辨率(SISR)旨在从给定的低分辨率图像中重建出具有清晰细节特征的高分辨率图像。它是计算机视觉中一个相对基础的任务。已经提出了许多用于单张可见光图像超分辨率的开创性方法,如[12]、[13]、[14]、[15]、[16]。SRCNN[17]首次提出了用于图像超分辨率的全卷积神经网络。受人类感知过程的启发,Cao等人[18]提出对不同区域之间的相关性进行建模,并根据每个区域的关联线索融合信息。Yang等人[19]首次将Transformer引入图像超分辨率领域,随后出现了SwinIR[20]和Restormer[21]等发展成果。此外,SRGAN[22]首次将生成器网络和判别器网络之间的对抗训练应用于低分辨率图像的重建。最新的结构化空间序列模型(SSM)[23]凭借其对复杂长序列数据的强大建模能力和近乎线性的可扩展性,已在单图像超分辨率中得到广泛应用,如MambaCSR[24]和MambaIR[25]。
尽管单图像超分辨率近年来取得了进展,但现有方法在遥感领域面临两个关键限制:对遥感数据固有的多尺度特征建模不足,以及对物体与其环境之间的空间上下文依赖关系挖掘不够。为了应对这些挑战,Yao等人[26]提出了一种多尺度CNN-Transformer特征融合(MSCT)网络。该框架在遥感领域取得了具有竞争力的性能,同时在多光谱领域展示了强大的泛化能力。
随着热图像的广泛应用,热图像的质量提升也受到了越来越多的关注。Choi等人[27]提出的TEN是第一个基于CNN的热图像增强方法,它可以直接学习从单张低分辨率热图像到期望的高分辨率热图像的端到端映射。基于CNN的超分辨率方法主要依赖监督学习,这需要成对的高分辨率和低分辨率图像进行训练。然而,由于传感器限制和环境变化,在遥感场景中获取此类成对数据具有挑战性。为了应对这一挑战,最近的研究探索了无监督和退化感知方法。例如,Cycle CNN[28]引入了循环一致对抗网络,使得利用非成对数据集进行超分辨率训练成为可能,而Zhang等人[29]开发了一种闭环框架,通过多级别模糊核和噪声注入模拟现实世界的退化过程,从而提高超分辨率性能。GRAN[30]提出了一种用于热图像超分辨率的残差注意力网络。尽管利用深度神经网络进行热图像超分辨率取得了显著进展,但大多数现有的深度学习架构层数较多,导致计算复杂度和内存需求较高。为了应对这些挑战,一种名为LISN[31]的新颖、高效且准确的单热图像超分辨率模型被引入。该模型的一个关键创新是引入了轻量级信息分割块(LISB)用于深度特征提取,它采用顺序过程提取层次特征,并根据特征相关性对其进行聚合。通过集成通道分割和移位操作,LISB在超分辨率性能和轻量级框架之间实现了最佳平衡。
B. 引导式热图像超分辨率方法
与单图像超分辨率方法不同,引导式热图像超分辨率(GTISR)采用高分辨率可见光图像来辅助热图像超分辨率任务。Lutio等人[32]将GTISR概念化为像素到像素的映射任务。从那以后,超分辨率技术的发展主要依赖于卷积神经网络(CNN)架构。Chen等人[33]采用颜色引导策略来改善热图像的超分辨率效果。为了提高模型性能,一些研究开始探索新颖的结构以有效整合引导信息。Zhao等人[34]提出了一种有效的多线索引导模块(MGM),从可见光图像中提取外观、语义和边缘相关信息,从而提高无人机热图像的识别率。Wang等人[35]设计了一种跨模态注意力特征融合(CMAFF)模块,以充分提取两种模态之间的共享和互补特征,并开发了一个三分支特征增强网络来分别增强跨模态特征的学习。此外,CENet[36]从模态差异的角度引入了双向对齐融合模块(BAFM)网络,确保模态转换(MC)任务和超分辨率任务之间的特征对齐和一致性。Gupta等人[37]提出了非对齐引导超分辨率(UGSR),引入特征对齐模块和错位映射模块,以确保从极低分辨率热图像进行非对齐引导超分辨率。SwinFuSR[38]引入了基于Swin transformer[39]的引导式超分辨率架构,在2024年感知超越可见光谱(PBVS)研讨会的Track 2[40]中获得了第三名。
C. 状态空间模型
状态空间模型(SSMs)[41][42][43]用于对动态系统进行建模,通过内部状态来表示输出观测,通常假设状态演化遵循隐马尔可夫模型(HMM)[44]。近年来,状态空间模型在深度学习中变得越来越重要,特别是在长程依赖建模方面。在自然语言处理(NLP)中,S4[42]模型利用大型一维卷积和高阶多项式投影算子(HiPPO)矩阵进行初始化,增强了记忆能力并解决了梯度问题。S5[43]集成了多输入多输出(MIMO)状态空间模型和高效并行扫描,进一步推动了该领域的发展。H3[45]模型有效缩小了状态空间模型和Transformers之间的性能差距,而门控状态空间(GSS)层通过门控单元增强了模型[46]的能力。
在计算机视觉中,二维状态空间模型正在被探索。例如,Baron等人[47]将二维状态空间模型集成到卷积神经网络和视觉Transformer(ViTs)中,作为特征处理的附加层。然而,这种方法存在局限性,因为它没有充分利用输入依赖特性,限制了模型从输入图像中自适应提取特征的能力。对此,V2M[48]模型提出了一种新颖的二维状态空间模型,在考虑相邻状态的同时保留与输入相关的特征。最近,Mamba模型[25]凭借其选择机制和高效的硬件设计,在各种视觉任务中表现优于传统的Transformers,包括图像分类、视频理解和图像分割。研究人员目前正在探索Mamba在图像恢复任务中的应用,旨在提供一个简单而有效的基线。
3. 所提方法
在本节中,我们将详细介绍DC-Mamba,其完整的网络结构如图1所示。我们提出的退化表示学习、残差状态空间块和跨模态特征融合将分别在3.2、3.3和3.4节中进行讨论。
A. 问题表述
为了合成符合真实世界退化原理的低分辨率图像,我们开发了一个多层次退化模型来模拟各种退化条件。该模型综合考虑了图像分辨率、模糊类型和噪声水平等多种因素。首先,该模型将高分辨率热图像与各种模糊核kσk_σkσ进行卷积(⊛\circledast⊛),并采用下采样因子↓s↓_s↓s来生成低分辨率图像。为了增加生成数据集的多样性,我们探索了四种模糊类型,包括3≤σ≤153 \le σ \le153≤σ≤15的高斯模糊、3≤σ≤153 \le σ \le153≤σ≤15的平均模糊、3≤σ≤153 \le σ \le153≤σ≤15的中值模糊以及35≤σ≤2535 \le σ \le2535≤σ≤25的运动模糊。
ILR=(IHR⊛kσ)↓s+nδ.(1)
I_{LR} = (I_{HR} \circledast k_σ) ↓_s +n_δ. \tag{1}
ILR=(IHR⊛kσ)↓s+nδ.(1)
此外,我们使用具有通道方向标准差(范围在0到0.1×255之间)的加性高斯白噪声(AWGN)nδn_δnδ来模拟真实场景中存在的环境影响,从而更准确地反映实际无人机热图像采集过程中出现的图像质量问题。
B. 退化表示学习框架
我们的目标是通过自监督方法从无人机低分辨率热图像中提取隐含的退化信息,从而实现退化表示学习。在训练阶段,编码器从低分辨率图像中提取退化表示,退化模块利用低分辨率图像和高分辨率图像中特定程度的模糊和噪声来重现低分辨率图像。
-
图像的再退化:首先,将低分辨率图像(ILR1)(I_{LR1})(ILR1)输入到由5个5×55×55×5卷积层组成的编码器中,得到退化表示FdF_dFd。然后,为了在I^LR2\hat{I}_{LR2}I^LR2图像中生成相同的退化,再退化网络将高分辨率图像IHR2I_{HR2}IHR2作为输入,并结合导出的退化表示FdF_dFd。再退化网络的构建单元是退化感知块,它能够有效地适应不同的退化条件。需要注意的是,再退化网络仅在训练过程中使用。
在由于配准误差导致部分特征错位的情况下,空间注意力机制会动态地优先处理关键细节,同时抑制错误区域,从而减轻跨模态融合中的误差传播。为了进一步解决配准不准确引起的局部失真,设计了退化感知块(DA块),利用退化表示来控制图像质量,如图2所示。它基于学习到的退化表示来调整卷积核,增强错位区域的特征适应性。DA块通过两种协同机制来调节图像恢复质量:空间调制注意力以强调温度敏感区域,以及结合由退化先验指导的通道方向特征重校准。这种双重策略确保了重建图像在结构一致性和热保真度方面的表现。
这是通过基于退化表示FdF_dFd(从ILRI_{LR}ILR中的特定退化导出)调制卷积核来实现的。在退化严重的区域,这些调制后的卷积核更为敏感,能够有效捕捉精细细节。此外,卷积核的调制使网络能够在空间域中自适应地聚焦于特定区域,例如具有明显温度异常的区域。
此外,受CResMD[49]的启发,该模块生成通道方向的自适应系数,对输入特征FspatialF_{spatial}Fspatial的不同分量进行重新缩放。在热图像中,不同的光谱通道可能代表不同的温度特征和材料属性。通过强调携带关键信息的通道(例如那些指示温度变化的通道),模型可以显著增强重建特征,从而提高最终输出的保真度。仿射块[50]代表一种学习到的仿射变换。这种双重机制使DA块能够有效地适应各种退化场景,控制整个无人机热图像的清晰度和对比度。
优化的下一步是对真实低分辨率图像ILR2I_{LR2}ILR2和合成低分辨率图像I^LR2{\hat{I}_{LR2}}I^LR2应用L1损失Lrd\mathcal{L}_{rd}Lrd。
Lrd=∣∣ILR2−I^LR2∣∣1(2) \mathcal{L}_{rd} = || I_{LR2} − \hat{I}_{LR2} ||_{1} \tag{2} Lrd=∣∣ILR2−I^LR2∣∣1(2)
为了确保FdF_dFd保留输入低分辨率图像的所有相关退化信息,ILR2I_{LR2}ILR2和ILR1I_{LR1}ILR1具有相同的退化但不同的内容,以便编码器能够准确捕捉与内容无关的退化表示。 -
能量距离损失:为了提高泛化性能,使用能量距离损失将潜在表示限制在一个受限空间中。更准确地说,我们的编码器用于随机选择m个低分辨率图像,并将它们编码为x1,x2...xmx_1, x_2...x_mx1,x2...xm,其中xi∈RCx_i∈R^Cxi∈RC是第iii个图像的退化表示。接下来,我们通过从高斯分布中采样mmm次得到y1,y2...yny_1, y_2...y_ny1,y2...yn。此时,第jjj个样本用yj∈RCy_j∈R^Cyj∈RC表示。那么,能量距离损失为:
Led=2A−B−C, \mathcal{L}_{ed} = 2A − B − C, Led=2A−B−C,
A=1mn∑i=1m∑j=1n∥xi−yj∥2 A=\frac{1}{mn}\sum_{i=1}^m{\sum_{j=1}^n{\lVert x_i-y_j \rVert _2}} A=mn1i=1∑mj=1∑n∥xi−yj∥2
B=1m2∑i=1m∑j=1n∥xi−yj∥2(3) B=\frac{1}{m^2}\sum_{i=1}^m{\sum_{j=1}^n{\lVert x_i-y_j \rVert _2}} \tag{3} B=m21i=1∑mj=1∑n∥xi−yj∥2(3)
C=1n2∑i=1m∑j=1n∥xi−yj∥2 C=\frac{1}{n^2}\sum_{i=1}^m{\sum_{j=1}^n{\lVert x_i-y_j \rVert _2}} C=n21i=1∑mj=1∑n∥xi−yj∥2
由于这种有界限制,退化表示在空间上是一致的。因此,编码器能够更好地分辨细微的退化细节,并且退化表示不会被压缩到一个有限的区域中。
C. 残差状态空间块
残差状态空间块(RSSB)模块是一种新颖的架构,旨在通过巧妙结合长程依赖获取、动态特征调制和高效特征融合的优势来改进低分辨率热图像的超分辨率,如图3所示。RSSB内部的基本变换可以描述为:
Zi=VFSSM(LN(Fi))+s⋅Fi,(4)
Z^i = VFSSM (LN (F^i)) + s · F^i, \tag{4}
Zi=VFSSM(LN(Fi))+s⋅Fi,(4)
其中FiF^iFi表示第iii层的输入深度特征。s∈RCs∈\mathcal{R}^Cs∈RC是一个可学习的缩放因子。参数sss初始化为从[0.1,1.0][0.1,1.0][0.1,1.0]区间上的均匀分布中采样的小随机值,其边界是通过先前的实验验证和数据集特征分析凭经验确定的。在训练过程中,降低高噪声区域的sss值,以最小化特征的影响,避免因梯度干扰导致的严重梯度扰动。
通过将专注于视觉任务的状态空间模型(VFSSM)与LayerNorm(LN)相结合,RSSB通过状态空间方程有效捕捉长程空间依赖关系,使其能够强调重建低分辨率图像所必需的复杂特征和复杂空间相互作用。这不同于传统的卷积方法(仅限于局部特征提取)和基于Transformer的方法(可能需要大量计算开销)。
RSSB的一个重要优势是引入了可学习的缩放因子s,它能够根据输入属性动态调整跳跃连接。与传统卷积网络中使用的固定架构相比,这种可塑性增强了特征融合。
VFSSM有两条并行路径:第一条路径包括通过深度卷积(DWConv)、SiLU激活函数、2DSSM层SSM2D(⋅)SSM_{2D}(·)SSM2D(⋅)[25]和LayerNorm对输入特征进行扩展和处理。第二条路径为感兴趣的图像区域聚焦提供空间注意力激活矩阵。两条路径的结果通过哈达玛积进行合并,然后投影回原始维度:
F1=LN(SSM2D(σ(DWConv(Linear(Fin))))),
F_1 = LN (SSM_{2D}(σ(DWConv(Linear(F_{in}))))),
F1=LN(SSM2D(σ(DWConv(Linear(Fin))))),
F2=SA(Linear(Fin)),(5)
F_2 = SA(Linear(F_{in})), \tag{5}
F2=SA(Linear(Fin)),(5)
Fout=Linear(F1⊗F2).
F_{out} = Linear(F_1 \otimes F_2).
Fout=Linear(F1⊗F2).
双路径设计解决了基于Transformer的方法经常遇到的冗余和不匹配问题,能够在保持原始维度的同时实现有效的特征融合。
通过使用状态空间方程有效提取特征,RSSB在高噪声红外成像情况下优于典型的卷积网络,并且在动态环境中提供了基于Transformer的技术可能无法提供的稳定性。
D. 跨模态特征融合框架
- 特征交互:为了更好地利用高分辨率可见光图像中的显著细节来指导低分辨率热图像的重建,我们设计了一个强大的特征交互模块。由于图像质量和模态存在固有的差异,直接融合可能会导致关键细节的退化。此外,现有的交互方法往往未能充分利用注意力机制,导致在特征融合过程中对关键信息的关注不够理想。
为了克服这些挑战,我们提出了一种融合通道注意力和空间注意力的特征交互模块,以增强特征融合的效果。在初始融合阶段,将从热图像和可见光图像中提取的特征相加,以确保两种模态的综合表示。模块中嵌入的双分支注意力机制使模型能够专注于与任务相关的特征,同时减轻噪声干扰。空间注意力优先处理可见光中的重要细节,而通道注意力则突出热图像中的重要特征,抑制无关或噪声信息。这确保了关键细节在空间和通道维度上都能得到保留和有效传递,从而实现更准确、可靠的图像重建。
通过自适应地权衡通道依赖性和空间相关性,该模块有选择地放大显著结构,同时抑制噪声传播。至关重要的是,该架构通过可学习的偏移补偿对配准误差表现出鲁棒性,即使在次优对齐条件下也能保留关键的热特征和可见纹理细节。如图4所验证,这种设计有效地减轻了超分辨率输出中因空间错位引起的伪影,保持了跨模态的感知一致性。
2)特征细化:特征细化块旨在有效处理多尺度信息,从而提高潜在特征的质量和表达能力。通过采用自注意力机制,该块动态分配权重以捕捉不同尺度特征之间的关系,提高对关键特征的关注度,并提高特征表示的精度。具体来说,浅层特征F2F^2F2用作查询向量(Q),中层特征F3F^3F3用作键向量(K),深层特征F4F^4F4用作值向量(V)。这种配置使模型能够自适应地调整特征之间的交互,增强对图像内细微变化的敏感性,并有效减轻先前多尺度融合方法中固定权重带来的信息损失。
Q=Pool4(Conv(F2)),
Q = Pool_4(Conv(F^2)),
Q=Pool4(Conv(F2)),
K=Pool2(Conv(F3)),
K = Pool_2(Conv(F^3)),
K=Pool2(Conv(F3)),
V=Conv(F4),(6)
V = Conv(F^4), \tag{6}
V=Conv(F4),(6)
Fout=SoftMax(QKTd)V.
F_{out} = SoftMax(\frac{QK^T}{\sqrt{d}})V.
Fout=SoftMax(dQKT)V.
3)特征增强:特征增强采用创新的三分支架构,如图5所示。第一个分支采用膨胀卷积从高分辨率可见光图像中捕捉空间特征,有效增强精细细节和全局上下文。通过在不增加计算复杂度的情况下扩大感受野,膨胀卷积能够提取更丰富的空间表示,从而改善纹理和结构恢复。第二个分支促进高分辨率可见光特征和低分辨率热特征的拼接,确保两种模态的综合信息都能得到保留和融合。第三个分支专注于提取通道特征,结合平均池化和最大池化操作以产生稳健的特征表示。然后将其与第一个分支的空间特征相加,并经过sigmoid激活函数,得到全维特征响应图。最后,第二个分支的特征通过矩阵乘法与全维响应图进行激活,实现深度的信息增强和优化。
E. 损失函数
为了与先前的工作进行公平比较,我们采用像素空间和特征空间的均方误差(MSE)指标相结合作为重建损失来训练退化感知跨模态超分辨率网络。重建损失用于最小化输出与高分辨率无人机热图像之间的差异。
为了实现重建损失,我们同时使用像素空间和特征空间的MSE来约束网络输出ISRI_{SR}ISR,使其尽可能接近真实值IHRI_{HR}IHR。此外,我们使用感知损失[54]作为第二项,这有助于保留图像的高级特征。
Lrec=λMSE∥IHR−ISR∥1+λperc∑i=14∥φi(IHR)−φi(ISR)∥1,(7)
\mathcal{L}_{rec}=\lambda _{MSE}\lVert I_{HR}-\text{I}_{\text{SR}} \rVert _1+\lambda _{\text{perc}}\sum_{\text{i}=1}^4{\lVert \varphi_{\text{i}}\left( \text{I}_{\text{HR}} \right) -\varphi_{\text{i}}\left( \text{I}_{\text{SR}} \right) \rVert _1,} \tag{7}
Lrec=λMSE∥IHR−ISR∥1+λperci=1∑4∥φi(IHR)−φi(ISR)∥1,(7)
其中φi(⋅)φ_i(·)φi(⋅)表示预训练VGG模型[55]第iii层的特征。λMSEλ_{MSE}λMSE和λpercλ_{perc}λperc表示权衡损失权重参数。在这项工作中,我们设置i∈[1,2,3,4]i∈[1,2,3,4]i∈[1,2,3,4]。
我们将介绍具体的实现细节,随后将我们提出的DC-Mamba与最先进的方法进行对比。最后,我们通过消融分析验证关键组件的有效性。
A. 实现细节
- 数据集:我们使用VGTSR数据集[34]来对比DC-Mamba方法与最先进的超分辨率技术。VGTSR数据集包含1025对高分辨率可见光图像和热图像,这些图像是通过DJI Matrice M300 RTK无人机上的Zenmuse H20T传感器拍摄的。该传感器同时拍摄分辨率分别为1920×1080的可见光图像和640×512的热图像。此外,VGTSR数据集还包含大量退化图像,包括低光条件、运动模糊和大气雾霾等情况,这有助于严格验证我们算法的泛化能力。为确保可见光图像和热图像之间的对齐和一致性,我们采用时频拍摄方式,并在Adobe Premiere中进行手动对齐和裁剪。该数据集涵盖了各种天气条件和时间,主要有两个拍摄场景:校园和城市街道场景,拍摄高度为200米。我们的训练集包含800对图像,测试集包含225对图像。图像对如图6所示。
对于以可见光为参考的热图像超分辨率任务,FLIR-ADAS数据集[56]提供了原始热图像和未配准的可见光谱数据。然而,由于采集过程中的时间和视角不匹配,原始数据集中的大多数图像对缺乏精确的空间对应关系。为了实现严格的跨模态学习,我们采用FLIR-Aligned子集[57],该子集包含640×512的图像,且经过手动验证的几何配准。这个精心整理的数据集包含在近距离(3-10米)拍摄的三类主要物体:行人、机动车和自行车,代表了城市环境中典型的监控目标。
-
训练配置:我们的模型在PyTorch框架下使用NVIDIA 4090显卡进行训练。为了生成受复杂且未知退化影响的低分辨率无人机热图像,我们使用高分辨率图像和3.1节中描述的退化模型,通过随机采样参数来合成相应的低分辨率图像。随后,我们使用简单的双线性插值器将这些低分辨率图像调整到所需的分辨率,然后输入到DC-Mamba网络中。
-
评价指标:我们使用基本的视觉质量评估指标[58],包括峰值信噪比(PSNR)和结构相似性(SSIM),来评估重建热图像的质量。这两个指标的值越高,结果越好。为了全面评估重建质量,我们采用学习感知图像块相似性(LPIPS)指标[59],该指标通过深度特征相关性来量化感知保真度。此外,考虑到实际部署需求,还需要评估计算效率。遵循嵌入式视觉系统中的既定做法[60],我们采用浮点运算次数(FLOPs)作为与硬件无关的指标,来衡量推理延迟和能耗,从而实现跨平台的计算复杂度比较。
B. 非盲超分辨率实验
为了验证我们的DC-Mamba的有效性,我们进行了有引导的无人机热图像超分辨率实验。我们在VGTSR数据集上设置了×4和×8两种不同的缩放比例,并将我们的方法与SAN[51]、SwinIR[20]、Restormer[21]、EDiffSR[52]、MambaIR[25]、PAG-SR[53]、UGSR[37]、MGNet[34]和CENet[36]进行对比。
- 定量结果:表I显示了我们在VGTSR数据上进行×4和×8超分辨率的结果。在×8超分辨率中,我们的方法相比单图像超分辨率和引导式超分辨率方法,PSNR提高了0.27dB,SSIM提高了0.0067。显然,在非盲超分辨率方法中,我们的方法取得了最佳性能。
不同的单图像超分辨率模型在性能上非常接近。尽管基于二阶注意力的方法SAN表现出显著的结果,但其计算相对复杂,可能导致模型训练的时间成本更高。SwinIR和Restormer虽然使用Transformer在捕捉长距离像素相关性方面表现良好,但在处理局部细节方面可能不如卷积有效。MambaIR专注于捕捉全局上下文信息,但在特征融合方面显得相对简单。EDiffIR使用先验信息来指导后续的图像恢复,但其先验信息的能力可能会限制超分辨率效果。在引导式图像超分辨率过程中,UGSR使用视觉注意力提取特征,MGNet采用多条件引导模块进行充分探索,但在上下文连接方面有所不足。而我们的DC-Mamba在保持线性时间复杂度的同时,有效地提供了详细的上下文特征引导和融合。
如表I所示,我们的DC-Mamba在计算效率方面表现均衡,浮点运算次数为29.31 GFLOPs,显著优于UGSR(46.60 GFLOPs)和PAG-SR(43.20 GFLOPs)等轻量级引导方法,同时参数数量为16.37M。与Restormer(23.79G FLOPs,25.3M参数)和EDiffSR(31.10G FLOPs,26.79M参数)等高复杂度单图像方法相比,DC-Mamba在资源需求降低的情况下仍取得了具有竞争力的性能。这种效率与性能的平衡使其特别适合计算能力受限的无人机平台。此外,我们的LPIPS指标在×4和×8上分别达到0.0486和0.1494,表明生成的高分辨率图像更接近真实值。其较低的LPIPS值以及具有竞争力的效率,使其特别适合那些在无人机系统实时图像增强中对计算限制和高视觉保真度都有严格要求的应用。
- 定性结果:我们的方法不仅在PSNR和SSIM这两个评估指标上表现良好,在感知质量上也有显著提升。图7和图8展示了不同方法的视觉对比结果。在恢复性能方面,SAN的结果相对模糊,而Restormer优于SwinIR。与单图像超分辨率方法相比,可以观察到重建的热图像存在不同程度的伪影,且局部纹理显得相对模糊。相比之下,我们的模型重建的热图像更清晰、更真实,与目标图像非常接近。仿真结果验证了所提方法的有效性。
我们的DC-Mamba在无人机热图像超分辨率方面取得了巨大进步,并且我们的模型在可见光图像的引导下表现良好。在引导式图像超分辨率过程中,MGNet和UGSR采用不同的融合策略,将可见光图像中的噪声传递进来,从而影响结果。PAG-SR通过融入边缘信息取得了更好的性能。显然,单图像超分辨率方法容易受到模糊伪影的影响,无法恢复更详细的纹理。引导式方法未能有效利用可见光信息。我们的模型重建的热图像更清晰、更真实,能够减少伪影和局部模糊,与目标图像非常接近。这些仿真结果进一步证实了所提方法的有效性。
为了验证DC-Mamba的跨数据集泛化能力,我们在FLIR-Aligned数据集上进行了交叉验证实验。如图9和图10所示,我们的方法在不同环境条件下都能始终保持热结构的完整性。图11中的进一步定量分析表明,DC-Mamba实现了接近真实值的统计分布。
C. 盲超分辨率实验
- 任意退化实验:我们将DC-Mamba与当前最先进的盲超分辨率方法进行了对比,包括DASR[61]和KDSR[62]。这些对比方法以完全无监督的方式从低分辨率图像中提取退化信息。我们在具有任意退化的合成测试集上进行了实验。表II展示了测试集上的像素级指标(PSNR和SSIM)结果。在×8超分辨率中,与KDSR相比,我们的PSNR提高了0.24dB,SSIM提高了0.0248。
DASR方法提出了一种无监督的盲超分辨率退化表示学习方案,与显式的像素空间估计不同,但其在处理极端或未知退化类型时,泛化性能可能仍需进一步提高。相比之下,KDSR通过基于知识蒸馏的隐式退化估计器准确区分各种退化。这种知识蒸馏过程可能相对复杂,需要额外的训练数据和计算资源。在某些情况下,其退化估计的准确性可能会受到数据质量和训练策略等因素的影响。
定量比较表明,DC-Mamba具有卓越的计算效率,与DASR(29.31G对43.91G)和KDSR(29.31G对37.16G)相比,浮点运算次数分别减少了33.2%和21.1%。这种轻量级特性使得在嵌入式部署时GPU内存消耗降低了38%。如表II所示,虽然推理延迟超过了DASR的100ms基准,但DC-Mamba相比最先进的方法在质量上有显著提升,PSNR提高了0.71dB,SSIM提高了0.0182。这些结果表明,DC-Mamba是一种在重建保真度和操作实用性之间取得平衡的最优框架,适用于航空热成像系统。
DC-Mamba方法结合了盲图像退化估计器的无监督学习能力和引导方法的先验信息提取能力,从而实现高效且准确的图像恢复。与现有的显式退化估计方法相比,这种方法避免了估计误差对恢复质量的影响。与DASR和KDSR相比,我们的DC-Mamba在准确性上有显著提升。这归功于我们的再退化机制,它更好地保留了退化细节并提高了性能。值得注意的是,我们的DC-Mamba产生的结果表现出最佳的退化表示性能。通过利用所提出的能量距离损失和退化学习损失,模型可以通过重现低分辨率图像来提取准确的退化信息,从而获得更高的PSNR分数。
如图12所示,DASR产生了意想不到的失真,KDSR在去噪和去模糊性能上优于DASR。但这两种方法都无法有效恢复完整的列。此外,KDSR的结果稍好一些,但纹理仍然不够清晰。可以明显看出,我们的方法不仅恢复了最多的线条,还成功减少了模糊,产生了更清晰的边缘。
- 不同类型模糊核和不同噪声水平退化实验:通过使用各向异性高斯核和不同水平的噪声来模拟更接近真实的退化情况,可以测试模型在不同类型和程度退化下的性能,从而验证其在更广泛场景中的泛化能力。我们可视化了9个具有代表性的各向异性模糊核用于评估。噪声水平设置为0、10、20。
在相同的噪声水平下,我们的DC-Mamba在所有模糊核上都优于其他对比方法。表III中的实验结果为我们提供了不同方法在热图像盲超分辨率任务中性能比较的深入见解。结果表明,DASR在处理复杂退化场景时表现相对较差。这可能是由于该模型对退化估计误差高度敏感,从而限制了其在处理此类复杂退化情况时的有效性。相比之下,我们提出的DC-Mamba采用RSSB模块和自适应退化学习策略,在面对复杂退化条件时表现出优异的性能。
实验数据清楚地表明,与其他方法相比,DC-Mamba对不同类型的模糊核敏感性更低。在相同的模糊核条件下,随着噪声水平的增加,所有模型的性能都出现了不同程度的下降。我们的DC-Mamba比其他方法对噪声的敏感性更低,进一步凸显了其在处理噪声条件时的稳健性。这证明了我们的方法在复杂退化情况下的优越性。
- 退化表示学习:我们使用t-SNE方法[63]进一步可视化从具有各种退化的图像中提取的退化表示。我们用不同的颜色可视化从具有不同核宽度的低分辨率图像中提取的表示,结果如图13所示。在图13(a)中,可以观察到DASR不能很好地区分退化类型。例如,核宽度为2.3(青色点)、4.1(紫色点)和5.0(橙色点)的退化表示混合在一起。在图13(b)中,可以观察到KDSR能够区分不同的类别,但不同类别空间之间的差距不够显著。与DASR和KDSR相比,我们的DC-Mamba(图13©)在所有核宽度下都表现出优异的性能。此外,DC-Mamba学习到的表示更具辨别性,证明我们的方法能够学习到准确的退化信息。
D. 消融实验
-
RSSB模块的有效性:为了验证我们的RSSB的能力,我们用RSSB替换了Transformer[64]。表IV显示我们的PSNR提高了0.93dB。由于基于Transformer的重建网络通常采用移位窗口注意力,这可能会阻碍整个图像层面的相互辅助。然而,我们的RSSB模块利用具有线性复杂度的状态空间建模,成功捕捉到了图像元素之间的长程依赖关系。在比较固定权重(s=1)和可学习缩放因子的性能差异时,实验结果表明,在×4超分辨率任务中,固定权重配置导致PSNR显著下降,并在模型训练过程中引发不稳定性,表现为频繁的梯度振荡,这显著增加了收敛到局部最优的风险。
-
FIB、FRB和FEB模块的有效性:为了评估FIB、FRB和FEB模块的有效性,我们用它们分别替换基线块,如图14(a)、图14(b)和图14©所示。实验结果显示性能进一步提升,分别提高了0.66dB(从29.23到29.89)、0.70dB(从29.23到29.93)和0.53dB(从29.23到29.76)。这一结果表明,我们的FIB模块结合了通道和空间注意力,能够聚焦于关键特征并减少噪声信息的影响;FRB有效处理多尺度信息,从而提高潜在特征的质量和表达能力;FEB通过三分支架构确保信息的全面保留和整合。与基线相比,我们提出的FIB、FRB和FEB能够更好地引导低分辨率热图像超分辨率。
-
退化模块的有效性:为了评估退化模块的有效性,我们将退化感知模块插入到基线网络中。PSNR值提高了1.20dB(从29.23到30.43)。我们的DC-Mamba取得了优异的性能,在准确性上有显著提升。这归功于我们的退化机制,它能更好地利用退化信息。
5. 结论
在这项研究中,我们提出了DC-Mamba,这是一种用于增强无人机拍摄的热图像超分辨率的新方法,旨在解决低分辨率和模态差异的局限性。我们的方法引入了一种自监督学习框架,直接从低分辨率热图像中提取退化信息。这些信息通过退化感知块指导超分辨率过程,增强对显著失真区域的敏感性。此外,我们设计了残差状态空间块来捕捉长程空间依赖关系,提高特征适应性和空间表示能力。为了解决模态差异问题,我们开发了一种跨模态特征融合框架,从交互、细化和增强三个层面利用可见光图像线索,优化热图像的重建。该框架有效整合了热图像和可见光图像的互补特征,减少了恢复图像中的噪声并提高了细节清晰度。
实验结果表明,DC-Mamba在各种指标上都优于当前最先进的单图像超分辨率和引导式超分辨率方法,生成的高分辨率热图像具有更真实和感知准确的细节。在未来的工作中,我们将专注于改进复杂无人机场景中的跨模态特征对齐,并扩展我们的框架以处理未对齐的热-可见光图像对。