当前位置: 首页 > news >正文

DRT-Net: Dual-Branch Rectangular Transformer with Contrastive Learning

DRT-Net: Dual-Branch Rectangular Transformer with Contrastive Learning for Hyperspectral Super-Resolution

摘要

基于融合的高光谱超分辨率方法利用互补数据来解决单一数据源的局限性。然而,现有方法往往优先考虑空间分辨率和颜色保真度,却忽略了光谱保留——这对数据的可解释性至关重要。这一疏漏,再加上传统光谱约束方法的适应性有限,导致高分辨率输出中出现显著的光谱失真。多尺度特征融合问题进一步造成细节恢复不足。为解决这些问题,我们提出了DRT-Net。我们的双分支矩形Transformer利用交叉注意力融合空间-光谱特征,增强跨模态交互。尺度自适应聚合器动态选择多尺度特征,以实现精确的光谱建模和细节恢复。此外,对比学习机制确保光谱特征与真实值的相似性,为复杂高光谱分布的建模提供了一种新方法。在六个主流高光谱数据集和一个真实世界数据集上进行的大量实验表明,所提出的DRT-Net优于最先进的方法。此外,我们的网络在各种场景中表现出稳健的性能和通用性。相关代码将在https://github.com/phaeton2017/DRTNet发布。

关键词——对比学习、图像融合、多光谱与高光谱图像融合、超分辨率、Transformer

I. 引言

与多光谱图像(MSI)相比,高光谱图像(HSI)能够捕捉更广泛范围的连续窄光谱波段。这种能力使研究人员能够区分不同的材料成分,并提供场景的详细表征[1,2],这使得高光谱图像在农业、环境监测和医疗诊断等领域得到了广泛应用[3]。然而,由于卫星成像传感器的技术限制,高光谱图像在空间分辨率和光谱分辨率之间存在固有的权衡[4,5]。为了解决这一限制,人们开发了许多高光谱图像超分辨率(SR)方法[4,6],旨在将高光谱数据与多光谱或全色图像进行整合与融合。

在这些方法中,卷积神经网络(CNN)[7]由于其强大的特征提取能力,在高光谱-多光谱图像融合(HMFusion)中展现出了巨大潜力[8]。例如,HCMN[9]采用特征级和像素级相似性度量模块,分别捕捉全局跨层依赖关系和像素自适应互补信息,从而提高超分辨率性能。Han等人[7]提出了两个创新的CNN框架,即SSFCNN和ConSFFCNN,旨在弥补在利用高光谱图像和RGB图像互补信息方面的不足。然而,基于CNN的方法在实现空间和光谱域的有效跨模态信息整合方面仍面临挑战[10]。

与主要关注局部依赖关系的CNN不同,鉴于Transformer在图像处理领域的成就[13],视觉Transformer已被应用于图像融合任务[11,12]。例如,HyperTransformer模型[14]能有效捕捉全色图像和高光谱图像之间的长距离依赖关系。然而,现有的基于Transformer的方法通常依赖固定大小的方形窗口进行注意力计算[15,16],这极大地限制了不同窗口之间信息的直接交互。这导致特征表示存在局限性,进而影响超分辨率重建的准确性和质量。

此外,生成对抗网络[17]在光谱融合中显示出潜力[18,19],通过对光谱和空间鉴别器进行对抗训练,能够有效保留光谱和空间信息。具体而言,EEGAN[20]利用其边缘增强子网络来强化轮廓特征,从而提高重建结果的可靠性和清晰度。

由于遥感图像的空间范围比自然图像大得多[10],有效利用其层次信息至关重要。较大的尺度有利于识别全局结构,而较小的尺度则更擅长捕捉局部目标的纹理和细节[21,22]。例如,PSRT[23]使用金字塔窗口来捕捉多尺度信息,同时降低计算成本。同样,MIMO-SST[21]整合了不同尺度下高光谱图像和多光谱图像的光谱信息,从而减轻不同程度的模糊。然而,这些方法在融合过程中没有充分整合不同尺度的特征,也没有充分解决遥感图像中的尺度变化问题[24,25]。这一疏漏可能导致重建误差的累积,从而影响模型的稳定性和准确性。

在这里插入图片描述

此外,大多数融合网络优先考虑提高融合图像的空间分辨率和最小化颜色失真[18]。在编码和解码阶段使用交互式自注意力机制可能会忽略融合过程中光谱特征的保留。如图1所示,我们展示了一种先进的高光谱图像超分辨率技术生成的重建图像,并选取了两个像素来展示其光谱曲线。红色曲线代表参考高光谱图像像素的光谱特征,绿色曲线对应重建高光谱图像像素的光谱特征。两条曲线越接近,重建高光谱图像的光谱保真度就越高。尽管重建的高光谱图像在视觉评估中具有出色的空间分辨率性能,但仍存在显著的光谱失真。

综上所述,现有的高光谱图像超分辨率技术面临三个关键局限性:(1)CNN在空间-光谱域的跨模态交互方面存在困难,而使用固定方形窗口的Transformer无法对高光谱数据中固有的长距离方向依赖关系进行建模;(2)多尺度融合方法往往缺乏自适应特征选择,导致在不同空间尺度下细节恢复不完整;(3)光谱保留被忽视,因为传统的像素级损失或简单的光谱约束无法捕捉数百个连续光谱波段的复杂分布。

这些差距凸显了对一个整合高效跨模态交互、自适应多尺度特征聚合和稳健光谱保真度约束的框架的需求。为了应对这些挑战,我们提出了一种用于分层高光谱图像超分辨率的新型双分支矩形Transformer(DRT-Net),它通过对比学习整合多尺度信息并确保精确的光谱保真度。与早期方法相比,我们提出的方法不仅提高了融合图像的空间分辨率,还保留了高光谱数据固有的光谱特征。

本研究的主要贡献总结如下:
1)我们提出了一种用于高光谱图像和多光谱图像融合的双分支矩形Transformer(DRT)模块,利用级联策略在多个尺度上最大限度地利用空间-光谱信息。该模块能够联合探索高光谱图像和多光谱图像中的空间-光谱关系。
2)为了增强多尺度特征交互,我们引入了一种尺度自适应特征聚合(SAFA)模块,它能自适应地选择不同尺度的相关特征,确保有效的通道整合。
3)引入了对比增强光谱恢复(CESR)机制,以提高光谱保真度。通过将对比学习纳入光谱约束,CESR减轻了特征提取过程中的光谱失真。
4)在各种遥感数据集上进行的大量实验表明,DRT-Net优于最先进的方法,验证了我们方法的有效性。

II. 相关工作

在本节中,我们简要回顾与所提方法最相关的研究工作,包括基于CNN的高光谱图像-多光谱图像融合(HMFusion)、基于Transformer的HMFusion方法以及用于图像超分辨率的对比学习。这些方法为我们提出的融合框架提供了重要的理论基础和技术支持。

A. 基于CNN的HMFusion方法

高光谱图像(HSI)与多光谱图像(MSI)的融合旨在构建从低分辨率到高分辨率的非线性映射模型,这是一个不适定问题[18]。近年来,传统方法已得到成功应用,包括分量替换[26]、张量分解[27,28]和稀疏表示[29,30]等。这些方法通过人工设计的转换规则或先验假设实现分辨率提升,但性能高度依赖于特定场景的先验知识,且难以捕捉HSI与MSI之间复杂的非线性映射关系[31,32]。

随着深度学习的兴起,基于CNN的方法逐渐成为主流,通过自动学习跨模态特征映射来提高融合精度,性能优于传统框架。早期方法将上采样后的低分辨率高光谱图像(LrHSI)与高分辨率多光谱图像(HrMSI)拼接作为输入[14,8],但未能充分利用两者的独特优势和相互关系。因此,部分研究利用深度网络探究HSI与MSI之间的空间-光谱相关性[33],以提升图像重建质量。例如,Sun等人[34]设计了并行金字塔网络,解决HSI与MSI之间的尺度差异。为提高特征提取的可解释性,研究人员还开始采用深度展开技术优化网络表示[35,36]。例如,HiSMNet[37]是一种深度分层金字塔亚像素映射网络,具有高频感知差分架构,旨在解决城市土地覆盖的多尺度和异质性特征,以改进超分辨率映射。然而,现有方法的优异性能高度依赖小规模训练数据集,这导致其在实际应用中存在固有局限性。

在实际场景中,由于光谱和空间退化往往未知,且获取高质量高光谱训练数据存在困难,一些无监督方法逐渐受到关注[38,39]。这些方法利用退化模型的深层信息来解决HMFusion问题,无需点扩散函数和光谱响应函数的先验知识。但它们仍难以处理遥感图像中的互补多尺度信息。事实上,遥感图像中不同尺度的特征包含丰富的场景语义和结构信息,而单尺度方法无法充分利用这些信息。因此,设计融合多尺度信息的网络对于提高HSI-MSI融合性能至关重要。例如,Li等人[40]和Fang等人[41]提出了多尺度因子联合学习架构,以实现更好的特征提取。然而,由于缺乏有效的权重分配机制,这些方法在跨尺度信息传递过程中存在显著的细节丢失问题,导致复杂场景下的边缘和纹理质量下降。为应对这些挑战,我们提出了DRT-Net,这是一种更稳健的网络架构,旨在克服上述局限性。

B. 基于Transformer的HMFusion方法

视觉Transformer框架近年来在图像恢复等计算机视觉任务中表现出卓越性能,这主要得益于其核心组件——多头注意力,该组件有效解决了CNN中卷积操作的局限性。理论上,它可以无限扩大感受野,使数据的不同部分能够相互作用和关联[42]。

鉴于高光谱图像具有较高的光谱相似性,近期研究(如MST++[43]和CTJN[44])提出了光谱多头自注意力机制,以高效捕捉光谱相关性。此外,在HMFusion中,PSRT[23]将洗牌-重洗牌策略与多尺度特征提取相结合,不仅提高了长距离依赖的建模效率,还间接解决了特征提取过程中像素级信息的整合问题。CYformer[45]采用循环跨模态交互架构,有效整合低分辨率高光谱图像的光谱先验和高分辨率多光谱图像的空间先验。类似地,MCT-Net[10]将交叉注意力概念引入传统Transformer模型,旨在更好地融合空间和光谱信息,其处理过程隐含了详细的特征映射。然而,将自注意力直接应用于像素级特征映射会显著增加计算负担。

对此,PVT[46]采用分阶段结构以减少计算开销。Swin Transformer[47]提出了滑动窗口多头自注意力(SW-MSA),该机制通过局部窗口限制注意力范围,并增强窗口间的交互。尽管如此,SW-MSA中的掩码会迫使部分注意力矩阵为负值,导致自注意力计算不充分[23],从而削弱重建结果。此外,使用固定大小的方形窗口[48]进行注意力计算的局限性显著限制了不同窗口之间信息的直接交互,因此无法充分利用图像中的非局部相似性信息[49]。

为缓解Transformer在有限数据集上应用时的局限性,已有多项研究提出利用CNN和Transformer网络的互补优势[50,51,52]。具体而言,MSDFormer[50]融入了基于可变形卷积的Transformer模块,以捕捉光谱波段间的空间冗余;SwinIR[52]引入卷积归纳偏置,以促进浅层和深层特征的融合。但需要注意的是,像SwinIR所采用的基于补丁的划分方案本质上限制了边界像素获取其所属补丁之外的上下文信息,这可能会限制其在图像恢复任务中的性能。

C. 用于图像超分辨率的对比学习

自监督对比学习已成为遥感领域解决标记数据有限这一挑战的核心范式。在图像融合中,对比学习取得了显著进展,尤其在去噪、分类和超分辨率等任务中[53,54,55]。此外,无监督方法[56,57]能够在无需人工标注的情况下学习光谱-空间联合特征。

在遥感超分辨率中,CLSR[58]利用半监督对比学习对齐多分辨率特征一致性,提高模型对退化的泛化能力。文献[59]采用自监督对比方法,使盲超分辨率适应多样的退化分布。此外,Wang等人[60]通过对比学习区分退化类型特征,以增强模型的稳健性。尽管这些方法验证了对比学习的优势,但它们的关注点仍局限于单模态场景下空间分辨率的提升。因此,它们尚未为HMFusion中特有的跨模态光谱失真问题提供有效的解决方案。

HMFusion的独特挑战源于异质模态之间的特征冲突。多光谱图像的低光谱分辨率使其特征包含大量的色空间噪声,例如由传感器非线性引入的伪光谱信息。相比之下,高光谱图像的连续光谱波段在数百个波长上表现出强烈的波段间相关性。传统方法依赖于像素级损失或单模态对比,无法弥合模态差距[8,18]。这导致在多种土地覆盖类型共存的复杂混合像素区域出现显著的光谱混叠现象。多光谱图像空间特征与高光谱图像光谱维度之间存在根本的物理差异,这会在直接融合过程中造成噪声污染,进而导致光谱失真[61]。

为解决这一问题,我们提出了一种跨模态对比光谱恢复机制。通过构建融合高光谱特征(锚点)、真实高光谱特征(正样本)和多光谱特征(负样本)的三元组约束,对比增强光谱恢复(CESR)机制使融合特征与真实高光谱特征对齐,同时与多光谱噪声分离,从而实现空间分辨率和光谱保真度的联合优化。

III. 方法

A. 整体架构

在这里插入图片描述
本文提出了一种用于高光谱图像(HSI)和多光谱图像(MSI)光谱-空间信息融合的集成网络。如图2(a)所示,整体架构由两个主要模块组成:DRT模块和SAFA模块。这些模块协同工作,有效提取和聚合多尺度的光谱-空间信息,显著提升高光谱图像融合性能。这种组合使网络能够捕捉丰富的空间和光谱特征,同时处理不同程度的数据退化。为进一步提高光谱保真度,我们引入了CESR机制(图2(b)),该机制与DRT共享参数,并优化空间和光谱信息的联合表示。

DRT-Net的核心是DRT模块,它采用基于Transformer的架构来建模空间和光谱特征之间的长距离依赖关系。首先,将大小为X∈Rh×w×CX\in R^{h×w×C}XRh×w×C的HSI和大小为Y∈Rh×w×CY\in R^{h×w×C}YRh×w×C的MSI通过上采样和1×11×11×1卷积处理至一致尺度。为更好地处理不同程度的退化,依次应用两次相同的四倍下采样操作,得到不同尺度的输入。第nnn次下采样后的特征图可描述为Xn∈RH/2n×W/2n×2(n−1)CX_n∈R^{H/2^n × W/2^n × 2(n-1)C}XnRH/2n×W/2n×2(n1)CYn∈RH/2n×W/2n×2(n−1)CY_n∈R^{H/2^n × W/2^n × 2(n-1)C}YnRH/2n×W/2n×2(n1)C。然后,将XnX_nXnYnY_nYn输入DRT,以充分利用多尺度的空间和光谱信息。每个输出与原始输入拼接后,通过双线性插值进行上采样,再通过3×33×33×3卷积与细粒度空间信息融合。

在DRT模块之后,SAFA模块在聚合多尺度信息方面发挥关键作用。它利用注意力机制对不同尺度的特征进行自适应加权,确保保留重要的空间和光谱信息,同时最大限度地减少噪声和冗余。该模块整合DRT的输出,确保最终融合图像既受益于详细的空间特征,又具备全局结构。

为提高光谱保真度,在第一阶段训练后引入CESR机制(图2(b))。CESR与DRT共享参数,联合优化空间和光谱表示。通过对比学习,它确保光谱的准确重建,在保持空间分辨率的同时提高光谱精度,从而提升网络的整体性能,特别是在保留空间细节和高质量光谱信息方面。

B. 双分支矩形Transformer

在这里插入图片描述

由于遥感图像的大范围特性,其存在大量复杂的非局部空间相关性。如图3(a)所示,尽管红色框和蓝色框区域相距较远,但它们表现出一致的视觉特征。传统的方形窗口若不增大窗口尺寸,无法建立长距离依赖关系,导致相似信息在重建过程中无法直接相互引导。相比之下,如图3(b)和(c)所示,绿色的矩形窗口能够有效捕捉非局部相似信息。因此,我们利用这一特性,提出将带矩形窗口的Transformer用于高光谱图像超分辨率任务。

DRT模块的核心设计是利用Transformer架构中的自注意力机制,结合矩形交叉注意力机制,捕捉空间和光谱特征之间的长距离非局部依赖关系。这种方法有效增强了这两类信息之间的交互。如图2(a)所示,DRT模块采用并行双分支设计,集成了矩形Transformer块(RTB)、矩形交叉注意力块(RCA)、多层感知器和层归一化,以优化信息处理流程。值得注意的是,可学习的位置编码直接集成到特征图中。这种方法丰富了特征表示,使注意力机制能够有效捕捉不同图像块之间的相对位置关系,从而增强对空间结构的理解。

在这里插入图片描述

为实现跨模态信息的深度融合,作为RTB核心组件的RCA专注于建模高光谱图像和多光谱图像中的非局部相似信息。其细节如图4(b)所示。它的独特之处在于使用数量相等且在不同注意力头上交替出现的双向矩形窗口策略——垂直窗口(V-RCA)和水平窗口(H-RCA),以全面捕捉图像中的非局部相似特征。矩形窗口沿空间维度将高光谱图像和多光谱图像分支的输入特征图划分为固定大小的矩形块。此外,同一方向上相邻的矩形窗口不重叠,但DRT在垂直和水平窗口之间交替,使它们的覆盖区域在不同方向上交错。

具体而言,输入XnX_nXnYnY_nYn被划分为iii个矩形块,即x={x1,x2,…,xi},y={y1,y2,…,yi}x = \{x₁, x₂, …, x_i\}, y = \{y₁, y₂, …, y_i\}x={x1,x2,,xi},y={y1,y2,,yi},每个块的大小为h′×w×Ch'×w×Ch×w×C(或w′×h×Cw'×h×Cw×h×C)。应用学习到的位置编码[62],为每个位置融入特定的位置信息。位置编码的维度与输入特征的维度一致,并且通过学习过程获得。

{x′=x+PEy′=y+PE(1)\begin{cases} x' = x + PE \\ y' = y + PE \end{cases} \tag{1}{x=x+PEy=y+PE(1)

其中,PE∈R1×N×d,N=H×WPE∈R^{1×N×d},N = H×WPER1×N×dN=H×W表示输入图像的总像素数,ddd表示嵌入维度。随后,通过线性映射将其转换到ddd维空间:

{xen=Linear(x′)yen=Linear(y′)(2)\begin{cases} x_{en} = Linear(x') \\ y_{en} = Linear(y') \end{cases} \tag{2}{xen=Linear(x)yen=Linear(y)(2)

RTB中的一个关键创新是RCA。与传统的自注意力机制通常采用固定大小的方形窗口进行局部注意力计算不同,我们的设计引入了矩形窗口注意力。这种方法同时结合了垂直和水平窗口,实现两个方向的注意力计算。首先,对于V-RCA,我们将高光谱和多光谱分支的每个块投影到查询Q、键K和值V,可表示为:

{(Qxi,Kxi,Vxi)=(xenWxQ,xenWxK,xenWxV)(Qyi,Kyi,Vyi)=(yenWyQ,yenWyK,yenWyV)(3)\begin{cases} (Q_x^i, K_x^i, V_x^i) = (x_{en}W^Q_x, x_{en}W^K_x,x_{en} W^V_x) \\ (Q_y^i, K_y^i, V_y^i) = (y_{en}W^Q_y, y_{en}W^K_y, y_{en}W^V_y) \end{cases} \tag{3}{(Qxi,Kxi,Vxi)=(xenWxQ,xenWxK,xenWxV)(Qyi,Kyi,Vyi)=(yenWyQ,yenWyK,yenWyV)(3)
其中,iii表示第iii个注意力头。 其中Wx{Q,K,V},Wy{Q,K,V}∈RC′×C′W_x^{\{Q,K,V\}},W_y^{\{Q,K,V\}}\in R^{C'\times C'}Wx{Q,K,V},Wy{Q,K,V}RC×C,分别是高光谱分支和多光谱分支的查询Q、键K和值V的投影映射。得到两个分支的投影后,计算每个块的自注意力特征如下:

{zxi=Attention(Qxi,Kxi,Vyi)=Vyisoftmax(Qxi(Kyi)T/dk)zyi=Attention(Qyi,Kyi,Vxi)=Vxisoftmax(Qyi(Kyi)T/dk)(4)\begin{cases} z_x^i = Attention(Q_x^i, K_x^i, V_y^i) = V_y^isoftmax(Q_x^i(K_y^i)^T / \sqrt{d_k}) \\ z_y^i = Attention(Q_y^i, K_y^i, V_x^i) = V_x^isoftmax(Q_y^i(K_y^i)^T / \sqrt{d_k}) \end{cases} \tag{4}{zxi=Attention(Qxi,Kxi,Vyi)=Vyisoftmax(Qxi(Kyi)T/dk)zyi=Attention(Qyi,Kyi,Vxi)=Vxisoftmax(Qyi(Kyi)T/dk)(4)

其中,zxiz_x^izxizyiz_y^izyi分别是高光谱分支和多光谱分支第i个注意力头的输出。TTT表示转置操作。对于H-RCA,处理过程与V-RCA相同。然后,矩形自注意力的输出z^x\hat{z}_xz^xz^y\hat{z}_yz^y通过通道维度进行拼接:
{Z^x=merge(Zx1,zx2,...,zxi)Z^y=merge(Zy1,zy2,...,zyi)(5) \begin{cases} \hat{Z}_x=merge(Z^1_x,z^2_x,...,z^i_x)\\ \hat{Z}_y=merge(Z^1_y,z^2_y,...,z^i_y) \end{cases} \tag{5} {Z^x=merge(Zx1,zx2,...,zxi)Z^y=merge(Zy1,zy2,...,zyi)(5)

总之,当两个方向的注意力机制有效融合时,模型能够充分利用垂直和水平维度的信息,从而建立更细致、更复杂的依赖关系。此外,为了稳定每个分支的输出分布,增强模型的表示能力和非线性特性,对RCA的输出应用层归一化和多层感知器。而且,在每个Transformer层中,我们采用残差连接来缓解梯度消失问题。由于两个分支的特征维度相同,使用元素相加来实现特征融合,表达式如下:

{kx=MLP(LN(z^x))+LN(z^x)ky=MLP(LN(z^y))+LN(z^y)(6)\begin{cases} k_x = MLP(LN(\hat{z}_x)) + LN(\hat{z}_x) \\ k_y = MLP(LN(\hat{z}_y)) + LN(\hat{z}_y) \end{cases} \tag{6}{kx=MLP(LN(z^x))+LN(z^x)ky=MLP(LN(z^y))+LN(z^y)(6)

通过线性映射执行投影操作,将z^x\hat{z}_xz^xz^y\hat{z}_yz^y转换回原始空间维度,得到经过Transformer处理后的输出特征。最后,经过多个Transformer层的计算和特征融合,DRT第nnn级的输出DRTnDRT_nDRTn为:

DRTn=kxn+kyn,n=1,2,3(7)DRT_n = k_x^n + k_y^n, n = 1, 2, 3 \tag{7}DRTn=kxn+kyn,n=1,2,3(7)

Fn=concat(DRTn,Xn,Yn)(8)F_n = concat(DRT_n, X_n, Y_n) \tag{8}Fn=concat(DRTn,Xn,Yn)(8)

其中,DRTnDRT_nDRTn表示高光谱图像和多光谱图像的融合结果。融合后的图像不仅保留了光谱分辨率,还增强了空间信息。

C. 尺度自适应特征聚合

与自然图像相比,遥感图像具有广泛的尺度范围,包含从宏观建筑轮廓到微观纹理的各种信息。为全面捕捉这些细节和结构,采用SAFA来提取多尺度光谱-空间信息。受SKNet[63]的启发,SAFA通过自适应网络学习整合多尺度特征图,有效整合关键信息。与SKNet不同,SAFA由两个不同的组件组成:融合(Fusion)和选择(Selection)。融合组件对多尺度特征进行合并并生成相应的权重,选择组件则基于这些注意力权重对特征进行组合,同时利用注意力的稳定性以及注意力机制与多尺度信息之间的互补性。其结构如图2(a)所示。

融合:将DRT块的输出与上一级特征进行元素相加,生成特征F1F_1F1F2F_2F2。对于F1F_1F1F2F_2F2,分别沿空间和通道维度执行平均池化和最大池化操作。在空间维度上,池化核遍历特征图的空间区域,以捕捉全局上下文依赖和局部结构细节。在通道维度上,聚合光谱通道的响应值,以提取跨通道相关性和波段间依赖关系。具体过程如下:

{SspaF1=maxc(1H×W∑h=1H∑w=1WF1(h,w,c))SspeF1=max⁡h,w(1C∑c=1CF1(h,w,c))(9)\begin{cases} S_{spa}^{F_1} = max_c(\frac{1}{H \times W} \sum_{h=1}^H \sum_{w=1}^W F_1(h, w, c))\\ S_{spe}^{F_1} = \underset{h,w}{\max}(\frac{1}{C} \sum_{c=1}^C F_1(h, w, c)) \end{cases} \tag{9}SspaF1=maxc(H×W1h=1Hw=1WF1(h,w,c))SspeF1=h,wmax(C1c=1CF1(h,w,c))(9)

{SspaF2=maxc(1H×W∑h=1H∑w=1WF2(h,w,c))SspeF2=max⁡h,w(1C∑c=1CF2(h,w,c))(10)\begin{cases} S_{spa}^{F_2} = max_c(\frac{1}{H \times W} \sum_{h=1}^H \sum_{w=1}^W F_2(h, w, c))\\ S_{spe}^{F_2} = \underset{h,w}{\max}(\frac{1}{C} \sum_{c=1}^C F_2(h, w, c)) \end{cases} \tag{10} SspaF2=maxc(H×W1h=1Hw=1WF2(h,w,c))SspeF2=h,wmax(C1c=1CF2(h,w,c))(10)

随后,对池化生成的特征在不同维度间进行交叉融合,即整合空间维度的平均/最大池化结果与通道维度的平均/最大池化结果。这个过程得到一个复合特征表示,同时包含多尺度空间结构和跨通道光谱依赖,形式化表示为:

{Sspa=concat(SspaF1,SspaF2)Sspe=concat(SspeF1,SspeF2)(11)\begin{cases} S_{spa} = concat(S_{spa}^{F1}, S_{spa}^{F2}) \\ S_{spe} = concat(S_{spe}^{F1}, S_{spe}^{F2}) \end{cases} \tag{11}{Sspa=concat(SspaF1,SspaF2)Sspe=concat(SspeF1,SspeF2)(11)

这种方法有效利用了空间和通道维度的信息。通过融合这些互补表示,该方法显著增强了特征的表达能力,为后续任务提供更全面、丰富的信息,从而有助于更好地捕捉图像的多层次语义和结构层次。随后,分别对sspas_{spa}sspasspes_{spe}sspe进行通道压缩和重构操作,压缩比为MMM

选择:为了自适应地选择不同的信息尺度,在紧凑特征ziz_izi的指导下,沿通道方向应用Softmax算子,具体定义如下:

{aci=eACzi/(eACzi+eBCzi)bic=eBCzi/(eACzi+eBCzi)(12)\begin{cases} a^i_c= e^{A_Cz_i}/(e^{A_Cz_i} + e^{B_Cz_i}) \\ b_i^c= e^{B_Cz_i}/(e^{A_Cz_i} + e^{B_Cz_i}) \end{cases} \tag{12}{aci=eACzi/(eACzi+eBCzi)bic=eBCzi/(eACzi+eBCzi)(12)

其中,AAABBB是两个可学习的参数。AcA_cAc表示AAA的第ccc行,acia^i_caci表示aia_iai的第ccc个注意力值,BCB_CBCbicb_i^cbic同理。这种机制通过通道间的竞争关系动态选择与当前任务相关的光谱-空间特征,实现多维度信息的自适应整合。

随后,通过分组卷积对每个DRT块的输出进行处理,生成U1,U2,U3∈RH×W×CU_1, U_2, U_3∈\mathbb{R}^{H×W×C}U1,U2,U3RH×W×C,其中GGG表示每组中的波段数。该操作将光谱通道划分为不重叠的子集,以便对不同光谱组进行并行特征提取,最大限度地减少组间信息干扰,提高多光谱特征处理的效率。接着,采用两个可学习的权重矩阵计算每个分支的自适应权重:

Vc=a1⊗U1+(a2+b1)⊗U2+b2⊗U3(13)V_c = a_1 \otimes U_1 + (a_2 + b_1) \otimes U_2 + b_2 \otimes U_3 \tag{13}Vc=a1U1+(a2+b1)U2+b2U3(13)

其中,⊗\otimes表示元素相乘。a1,a2,b1,b2a_1, a_2, b_1, b_2a1,a2,b1,b2表示分配给每个分支的可学习权重,确保多尺度光谱-空间特征的自适应和特定任务融合。这使得模型在特征融合过程中能够动态优先考虑不同尺度的信息。

最后,使用1×11×11×1卷积层调整通道维度,将融合后的特征空间映射到高光谱图像的目标波段数,生成最终的高分辨率输出Iout∈RH×W×CI_{out}∈\mathbb{R}^{H×W×C}IoutRH×W×C

Iout=Conv(1,Vc)(14)I_{out} = Conv(1, V_c) \tag{14}Iout=Conv(1,Vc)(14)

其中,Conv(1,⋅)Conv(1,·)Conv(1,⋅)表示包含批归一化和激活函数的1×11×11×1卷积块。该操作在保留特征空间结构的同时,精确地使光谱维度适应目标高光谱配置,确保重建过程中的维度一致性和特征完整性。

D. 对比增强光谱恢复

高光谱图像超分辨率旨在通过超分辨率技术提高低分辨率图像的空间分辨率,同时最大限度地保留光谱信息的准确性。然而,现有的超分辨率方法往往面临光谱信息丢失和空间细节保留的双重挑战。在空间和光谱特征的多级别编码过程中,随着图像分辨率的提高,光谱特征通常会显著退化,这对最终超分辨率图像的光谱保真度产生不利影响。

近年来,深度学习,特别是对比学习,在高光谱图像超分辨率领域引起了越来越多的关注。对比学习是一种通过最大化正样本对之间的相似度和最小化负样本对之间的相似度来学习有效表示的技术。尽管它在视觉任务中取得了显著成功,但由于高光谱数据的复杂性和多样性,在高光谱图像超分辨率中仍存在诸多挑战。具体而言,在空间和光谱特征的多级别编码过程中,如何保持光谱信息的完整性以及提高模型对复杂光谱特征分布的适应能力,是当前研究中的重要挑战。

为解决这些问题,我们引入了对比学习机制。在高光谱图像超分辨率中,我们的目标是通过对比学习提高光谱保真度、特征提取能力和训练稳定性。这种方法不仅帮助模型在特征提取过程中保持光谱信息的准确性,还有效防止光谱退化,从而提高图像的光谱一致性和视觉质量。

如图2(b)所示,CESR从融合图像中提取光谱特征作为锚点。接下来,计算这些锚点样本与初始高光谱图像的光谱序列之间的相似度(欧氏距离[64]),并根据预定义的阈值SSS进行划分。计算公式如下:

S=dED(sx,sy)=Psx,syP2=∑i=1L(sxi−syi)2(15)S= d_{ED}(s_x, s_y) = Ps_x, s_yP_2 = \sqrt{\sum_{i=1}^L (s_x^i - s_y^i)^2} \tag{15}S=dED(sx,sy)=Psx,syP2=i=1L(sxisyi)2(15)

其中,sx=(sx1,sx2,…,sxL)s_x = (s_x¹, s_x², …, s_xᴸ)sx=(sx1,sx2,,sxL)sy=(sy1,sy2,…,syL)s_y = (s_y¹, s_y², …, s_yᴸ)sy=(sy1,sy2,,syL)是两个LLL维向量,表示两个点或样本的特征值。sxis_x^isxisyis_y^isyi分别是向量sxs_xsxsys_ysy的第iii个元素。该公式计算两个向量在每个维度上对应元素之间的平方差之和,然后取该和的平方根。结果即为两点之间的距离。

这里,阈值由所有样本的平均相似度得分确定。相似度高于阈值的样本与锚点样本配对形成正样本对PiP_iPi,而低于SSS的样本与初始多光谱图像配对形成负样本对NiN_iNi。DRT对这些样本对进行处理,获取用于相似度计算的嵌入,为特征嵌入和优化奠定基础,公式表示为:

fi=DRT(ei)(16)f_i = DRT(e_i) \tag{16}fi=DRT(ei)(16)

其中,fif_ifi表示特征嵌入的第i个图像块eie_iei。随后,我们对第iii个样本采用对比损失[65]Lc\mathcal{L}_cLc,如下所示:

Lc=∑i=1Njlog[∑j=1Njexp(fi⋅pj)∑j=1Njexp(fi⋅pj)+∑k=1Nkexp(fi⋅pk)](17)\mathcal{L}_c = \sum_{i=1}^{N_j} log \left[ \frac{\sum_{j=1}^{N_j} exp(f_i \cdot p_j)}{ \sum_{j=1}^{N_j} exp(f_i \cdot p_j)+ \sum_{k=1}^{N_k} exp(f_i \cdot p_k)}\right] \tag{17}Lc=i=1Njlog[j=1Njexp(fipj)+k=1Nkexp(fipk)j=1Njexp(fipj)](17)

其中,pppnnn分别表示正样本和负样本的特征表示。NiN_iNiNjN_jNjNkN_kNk分别是查询样本、正样本和负样本的数量。pjp_jpjpkp_kpk分别表示正样本和负样本的特征嵌入。

E. 损失函数

a) MSE损失LmseL_{mse}Lmse:计算网络输出IoutI_{out}Iout与真实值IGTI_{GT}IGT之间简单且常用的均方误差(MSE),公式如下:

Lmse=∑k=1C∑i=1H∑j=1W(Iout(i,j,k)−IGT(i,j,k))22HWC(18)\mathcal{L}_{mse} = \frac{\sum_{k=1}^C \sum_{i=1}^H \sum_{j=1}^W (I_{out}(i, j, k) - I_{GT}(i, j, k))^2}{2HWC} \tag{18}Lmse=2HWCk=1Ci=1Hj=1W(Iout(i,j,k)IGT(i,j,k))2(18)

其中,HHHWWW分别表示高度和宽度维度,CCC表示光谱波段的数量。

b) 光谱重建损失Lspe\mathcal{L}_{spe}Lspe:为了强调光谱恢复,引入了光谱重建损失[8]。其计算公式如下:
Ispe=Iout+Convspe(3,Iout)(19) I_{spe} = I_{out} + Conv_{spe}(3, I_{out}) \tag{19} Ispe=Iout+Convspe(3,Iout)(19)
mathcalLspe=∑k=1C∑i=1H∑j=1W(Ispe(i,j,k)−Iout(i,j,k))22HWC(20) mathcal{L}_{spe} = \frac{\sum_{k=1}^C \sum_{i=1}^H \sum_{j=1}^W (I_{spe}(i, j, k) - I_{out}(i, j, k))^2}{2HWC} \tag{20} mathcalLspe=2HWCk=1Ci=1Hj=1W(Ispe(i,j,k)Iout(i,j,k))2(20)

其中,Convspe(3,⋅)Conv_{spe}(3,·)Convspe(3,⋅)是一个3×33×33×3的卷积层。

c) 总损失LtotalL_{total}Ltotal:我们训练网络的最终损失函数描述如下:
Ltotal=Lmse+Lspe+Lc(21) \mathcal{L}_{total} = \mathcal{L}_{mse} + \mathcal{L}_{spe} + \mathcal{L}_c \tag{21} Ltotal=Lmse+Lspe+Lc(21)

IV. 实验与分析

在本节中,我们将呈现实验结果,以验证所提出的DRT-Net在高光谱图像超分辨率(HSI SR)任务中的有效性。首先,介绍数据集、实验设置和评估指标。随后,在6个公开数据集和1个真实数据集上,将DRT-Net与两类最先进的高光谱图像超分辨率方法进行对比:(1)传统融合方法:包括基于局部自适应协同表示融合(LACRF)[66]、内在张量稀疏表示(IR-TenSR)[67]、带纤维秩最小化的低秩张量方法(LRTCFPan)[32];(2)基于深度学习的融合框架:SSR-NET[8]、SSFCNN[7]、MIMO-SST[21]、PSRT[23]、DSPNet[34]、QIS-GAN[18]、M2DTN[25]、U2Net[68]、MCTNet[10]和CYformer[45]。通过消融实验和参数分析,我们对DRT-Net的内部机制进行了剖析。最后,鲁棒性分析证实,所提出的DRT-Net在各种条件下均表现更优。

A. 实验设置

a) 数据集:为验证我们方法的可靠性和有效性,选取了6个具有代表性的公开数据集进行测试:Botswana、Urban、PaviaU、著名的华盛顿特区购物中心(DC)、Augsburg[69]和CAVE。表1列出了这些数据集的详细规格和特征。具体而言,Botswana数据集在去除噪声波段和涵盖吸水特征的未校准波段后,包含145个波段。Urban数据集由Hydice传感器在美国得克萨斯州Copper Tree Bay上空获取,尺寸为307×307×162。PaviaU数据集由ROSIS传感器捕捉,空间分辨率为1.3米,初始包含115个波段,去除12个噪声波段后,使用103个光谱波段进行分析。DC数据集在排除水汽吸收波段后,由1280×307个像素和191个光谱波段组成。Augsburg数据集包含模拟的卫星高光谱图像,覆盖德国奥格斯堡市及其周边地区,该数据集的高光谱数据包含244个波段,光谱覆盖范围为400-2500纳米,空间尺寸为380×2384像素,空间分辨率为30米。如图5所示,我们选取该数据集的区域1进行模拟实验,区域2用于真实世界实验。CAVE高光谱数据集包含32幅室内高光谱图像,每幅高光谱图像的尺寸为512×512×31,波段范围为400-700纳米。

对于这6个公开数据集,为评估其性能,我们遵循Wald协议[71]生成高光谱图像(HSI)和多光谱图像(MSI)对。高光谱图像首先通过尺寸为5×5、标准差为2的高斯滤波器处理,以模拟成像平滑效果,然后进行4倍下采样,以匹配多光谱分辨率。多光谱图像通过从参考图像中均匀选择5个波段构建,以确保光谱覆盖范围。从每个数据集随机裁剪出多个128×128的子区域,其中中心的子区域用于测试,其余用于训练。值得注意的是,对与测试区域重叠的训练数据进行零像素填充,确保训练数据和测试数据完全独立。对于CAVE数据集,从32幅图像中随机选择26幅用于训练,其余6幅留作测试。按照Wald协议生成HSI/MSI对,并将每幅图像划分为不重叠的128×128像素块,形成训练集和测试集。

此外,我们使用Augsburg数据集的区域2(记为Augsburg-2)在真实世界数据集上进行实验。该数据集包含低分辨率高光谱图像(LRHSI)和高分辨率多光谱图像(HRMSI)。由于缺乏参考图像,我们使用Wald协议构建训练集,得到尺寸为300×360×4的低分辨率高光谱图像(LR-HSI)和尺寸为100×120×242的高分辨率多光谱图像(HR-MSI)。训练集和测试集的选择方法与模拟实验相似。

b) 质量指标:对于6个公开数据集,根据文献[72,73],我们采用5个指标评估融合高光谱图像的质量:均方根误差(RMSE)[74]、峰值信噪比(PSNR)、全局相对综合无量纲误差(ERGAS)、光谱角映射器(SAM)[75]和平均相对绝对误差(MRAE)。具体而言,RMSE用于评估图像清晰度和质量水平;PSNR用于评估和量化重建高光谱图像的空间保真度;ERGAS量化重建高光谱图像的整体统计质量,侧重于全局准确性;SAM通常用于评估每个像素的光谱保真度;此外,MRAE用于详细的误差分析,为算法优化提供支持。这些指标共同提供了对结果全面且准确的评估。

对于真实的Augsburg-2数据集,本研究使用无参考质量(QNR)[76]以及两个衍生指标(用于量化光谱失真(Dλ)和空间失真(Ds))作为评估标准。QNR值越高,表明重建的高分辨率高光谱图像(HRHSI)质量越好。当光谱失真参数Dλ和空间失真参数Ds均为零时,QNR的理论最大值为1,代表理想的图像质量状态。

c) 实现细节:所提出的方法以及其他基于深度学习的方法均使用PyTorch 1.12.1和Python 3.8.0实现。计算在配备Intel® CoreTM i7-13700K CPU(第13代)和NVIDIA GeForce RTX 4060 Ti GPU的Linux操作系统上进行。训练期间,模型经历10,000个epoch,采用ADAM优化器。在深度学习中,学习率不仅仅是一个超参数,它直接影响模型的训练效果和性能。正确选择和调整学习率对于训练有效的深度学习模型至关重要。如图6所示,我们测试了各种学习率,最终为模型选择0.0001的学习率。网络的批量大小设置为16,权重衰减为1e-4。所有实验均独立进行3次,以平均值作为最终结果,确保实验的稳定性和可靠性。

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/583134.html

相关文章:

  • 离线二维码生成器,无需网络快速制作
  • springBoot使用XWPFDocument 和 LoopRowTableRenderPolicy 两种方式填充数据到word模版中
  • Android-重学kotlin(协程源码第一阶段)新学习总结
  • npm init vue@latestnpm error code ETIMEDOUT
  • 网络请求与现实生活:用办理业务类比理解HTTP通信
  • kotlin学习,val使用get()的问题
  • AI 知识库 2.0 时代!2025 设备管理系统如何实现 “智慧运维”?
  • Docker完全指南:从入门到生产环境实战
  • 将.net应用部署到Linux服务器
  • 深入解析 .NET 泛型:从原理到实战优化
  • Docker 搭建 Harbor 私有仓库
  • 使用 Docker 搭建 Go Web 应用开发环境——AI教你学Docker
  • mac m1安装大模型工具vllm
  • Vue的watch和React的useEffect
  • “AI 曼哈顿计划”:科技竞赛还是人类挑战?
  • 电商销量第一,贝锐向日葵智能远控硬件背后的软硬结合战略
  • Mac mini 高性价比扩容 + Crossover 游戏实测 全流程手册
  • Python-FAQ-单例模式
  • 深入理解图像二值化:从静态图像到视频流实时处理
  • 一天两道力扣(3)
  • 计蒜客T3473丑数、Leetcode2401最长优雅子数组、Leetcode167两数之和、Leetcode581最短无序连续子数组
  • 开源链动2+1模式与AI智能名片融合下的S2B2C商城小程序源码:重构大零售时代新生态
  • 【工具】Pycharm隐藏文件类型或目录
  • Hive MetaStore的实现和优化
  • AI+智慧园区 | 事件处置自动化——大模型重构园区治理逻辑
  • 向量空间 线性代数
  • 两张图片对比clip功能
  • 在 PyCharm 中安装并配置 Node.js 的指南
  • 整合Spring、Spring MVC与MyBatis:构建高效Java Web应用
  • Linux的 `test`命令(或等价中括号写法 `[空格expression空格]`)的用法详解. 笔记250709