当前位置: 首页 > news >正文

SNR-Aware Low-light Image Enhancement 论文阅读

信噪比感知的低光照图像增强

摘要

本文提出了一种新的低光照图像增强解决方案,通过联合利用信噪比(SNR)感知的变换器(transformer)卷积模型,以空间变化的操作方式动态增强像素。对于极低信噪比(SNR)的图像区域使用长程操作,对于其他区域使用短程操作。我们提出利用SNR先验来指导特征融合,并设计了一种新的自注意力模型来构建SNR感知变换器,以避免来自极低SNR噪声图像区域的令牌(tokens)参与计算。大量实验表明,在七个具有代表性的基准数据集上,使用相同的网络结构,我们的框架始终比最先进(SOTA)方法获得更好的性能。此外,我们进行了一项有100名参与者的大规模用户研究,以验证我们结果的优越感知质量。代码可在 https://github.com/dvlab-research/SNR-Aware-Low-Light-Enhance 获取。

1 引言

低光照成像对于许多任务至关重要,例如夜间物体和动作识别[18, 27]。低光照图像通常对人类感知来说可见度差。同样,当下游视觉任务直接以低光照图像作为输入时,其性能也会受到影响。

已经提出了几种方法来增强低光照图像。当前事实上的方法是开发神经网络,学习操纵颜色、色调和对比度来增强低光照图像[12, 15, 56, 41],而一些近期工作则考虑了图像中的噪声[48, 29]。本文中,我们的关键见解是:低光照图像中的不同区域可能具有不同的亮度、噪声、可见度等特性。极低亮度区域被噪声严重破坏,而同一图像中的其他区域可能仍具有合理的可见度和对比度。为了获得更好的整体图像增强效果,我们应该自适应地考虑低光照图像中的不同区域

为此,我们通过探索信噪比(SNR)[54, 3]来研究图像空间中信号与噪声之间的关系,以实现空间变化的增强。具体来说,较低SNR的区域通常不清晰。因此,我们利用更长空间范围的非局部图像信息进行图像增强。另一方面,相对较高SNR的区域通常具有更高的可见度和更少的噪声。因此,局部图像信息通常就足够了。图2展示了一个用于说明的低光照图像示例。进一步讨论见第3.1节。
在这里插入图片描述
我们在RGB域中解决低光照图像增强的方案是联合利用长程和短程操作。在最深的隐藏层中,我们设计了两个分支。具有transformer结构[38]的长程分支用于捕获非局部信息,而具有卷积残差块[17]的短程分支捕获局部信息。在增强每个像素时,我们根据像素的信噪比动态地确定局部(短程)和非局部(长程)信息的贡献。因此,在高SNR区域,局部信息在增强过程中起主要作用;而在极低SNR区域,非局部信息则更有效。为了实现这种空间变化操作,我们构建了一个SNR先验并用它来指导特征融合。此外,我们修改了变换器结构中的注意力机制,提出了SNR感知变换器。与现有变换器结构不同,并非所有令牌都参与注意力计算。我们仅考虑具有足够SNR值的令牌,以避免来自极低SNR区域的噪声影响。

我们的框架能有效增强具有动态噪声水平的低光照图像。我们在7个代表性数据集上进行了大量实验:LOL (v1 [45], v2-real [53], & v2-synthetic [53])、SID [5]、SMID [4] 和 SDSD (indoor & outdoor) [39]。如图1所示,在所有数据集上使用相同结构,我们的框架均优于10种SOTA方法。此外,我们进行了有100名参与者的大规模用户研究,以验证我们方法的有效性。定性比较如图3所示。总的来说,我们的贡献有三个方面:

  • 我们提出了一个新的信噪比感知框架,该框架同时采用变换器结构和卷积模型,利用SNR先验实现空间变化的低光照图像增强。
  • 我们设计了一个用于低光照图像增强的SNR感知变换器,它具有一个新的自注意力模块。
  • 我们在七个代表性数据集上进行了大量实验,表明我们的框架始终优于一系列丰富的SOTA方法。

2 相关工作

无学习的低光照图像增强。 为了增强低光照图像,直方图均衡化和伽马校正(gamma correction)是扩展动态范围和增加图像对比度的基本工具。这些基本方法在增强真实世界图像时往往会产生不希望的伪影。基于Retinex的方法将反射分量视为图像增强的合理近似,能够产生更真实自然的结果[28, 35]。然而,在增强复杂的真实世界图像时,这类方法经常会导致局部颜色失真[40]。

基于学习的低光照图像增强。 近年来提出了许多基于学习的低光照图像增强方法[2, 14, 20, 22, 29, 31, 42, 48, 49, 50, 52, 53, 59, 60, 62, 63]。Wang等人[40]提出预测光照图来增强曝光不足的照片。Sean等人[33]设计了一种策略来学习三种不同类型的空间局部滤波器进行增强。Yang等人[51]提出了一种半监督方法来恢复低光照图像的线性带表示。此外,还有无监督方法[7, 14, 19]。例如,Guo等人[14]构建了一个轻量级网络来估计逐像素和高阶曲线以进行动态范围调整。

与之前的工作不同,我们的新方法基于一个信噪比感知框架来增强低光照图像,该框架包含一个新的SNR感知变换器设计和一个卷积模型,以空间变化的方式自适应地增强低光照图像。如图1所示,我们的框架在七个不同基准数据集上使用相同结构始终取得更好的性能。

3 我们的方法

图4展示了我们框架的概览。输入是一个低光照图像,我们首先使用一个简单而有效的策略从中获取SNR图(详见第3.2节)。我们建议利用SNR来指导我们的框架,为具有不同信噪比的图像区域自适应地学习不同的增强操作。
在这里插入图片描述

图4: 我们的低光照图像增强框架首先估计一个SNR图,用于指导不同图像区域的像素增强。我们构建了一个SNR引导的注意力(图5)机制,指导我们的基于块的SNR感知变换器如何处理长程图像信息,特别是用于增强极低SNR的图像区域。此外,我们开发了SNR引导的融合,将得到的长程特征 Fl\mathcal{F}_{l}Fl 与短程特征 Fs\mathcal{F}_{s}Fs 结合,生成最终的图像特征 F\mathcal{F}F

在我们框架的最深隐藏层中,我们设计了两个不同的分支用于长程和短程操作。它们分别通过变换器[38]和卷积结构实现,旨在实现高效操作。为了实现长程操作同时避免极低光照区域噪声的影响,我们用SNR图来指导变换器中的注意力机制。为了采用不同的操作,我们开发了一种基于SNR的融合策略,从长程和短程特征中获得组合表示。此外,我们使用从编码器到解码器的跳跃连接来增强图像细节。

图2: 低光照图像增强需要空间变化操作。蓝色(或红色)区域具有极低(或相对较高)的SNR。它为图像增强提供不足(或充分)的局部图像信息。在操作中,我们对蓝色区域使用长程图像信息,因为它已被噪声严重破坏。右侧线性提高了亮度以便可视化不同图像区域的噪声。

图3: 一个具有挑战性的低光照帧 (a) 分别通过具有卷积结构的SOTA方法 (b)、SOTA变换器结构 © 和我们的方法 (d) 进行增强。我们的结果展现出更清晰的细节、更鲜明的对比度和更少的噪声(放大查看效果更佳)。

长程和短程分支

空间变化操作的必要性。 传统的低光照图像增强网络在最深的隐藏层采用卷积结构。这些操作主要是短程的,用于捕获局部信息。对于并非极度黑暗的图像区域,局部信息可能足以恢复,因为这些像素仍然包含一定量的可见图像内容(或信号)。但对于极度黑暗的区域,局部信息不足以增强像素,因为相邻局部区域的可见度也很弱,且主要被噪声主导。

为了解决这个关键问题,我们利用变化的局部和非局部信息交互来动态增强不同区域的像素。局部和非局部信息是互补的。其效果可以根据图像上的SNR分布来确定。一方面,对于高SNR的图像区域,局部信息应起主要作用,因为局部信息足以进行增强。它通常比长距离的非局部信息更准确。

另一方面,对于极低SNR的图像区域,我们更关注非局部信息,因为局部区域可能包含很少的图像信息而主要被噪声主导。与之前的方法不同,我们在框架的最深隐藏层中(见图4)明确地制定了一个用于极低SNR图像区域的长程分支和一个用于其他区域的短程分支

两个分支的实现。 短程分支基于卷积残差块的结构实现,用于捕获局部信息;而长程分支基于变换器[38]的结构实现,因为变换器擅长通过全局自注意力机制捕获长程依赖关系,这在许多高级[10, 16, 21, 30, 46, 57, 58]和低级任务[6, 44]中已得到证明。

在长程分支中,我们首先将特征图 FFF(由编码器从输入图像 I∈RH×W×3I\in\mathbb{R}^{H\times W\times 3}IRH×W×3 中提取)划分为 mmm 个特征块,即 Fi∈Rp×p×C,i={1,...,m}F_{i}\in\mathbb{R}^{p\times p\times C},i=\{1,...,m\}FiRp×p×C,i={1,...,m}。假设特征图 FFF 的大小为 h×w×Ch\times w\times Ch×w×C,块大小为 p×pp\times pp×p。那么有 m=hp×wpm=\frac{h}{p}\times\frac{w}{p}m=ph×pw 个特征块覆盖整个特征图。

如图4所示,我们的SNR感知变换器是基于块的。它由多头自注意力(MSA)模块[38]和前馈网络(FFN)[38]组成,两者都包含两个全连接层。变换器的输出特征 F1,...,Fm\mathcal{F}_{1},...,\mathcal{F}_{m}F1,...,Fm 与输入特征块大小相同。我们将 F1,...,FmF_{1},...,F_{m}F1,...,Fm 展平为一维特征,并执行以下计算:

其中 LNLNLN 表示层归一化;yiy_{i}yi 表示第 iii 个变换器块的输出;MSAMSAMSA 表示我们的SNR感知多头自注意力模块(见图5),将在第3.3节详述;qiq_{i}qikik_{i}kiviv_{i}vi 分别表示第 iii 个多头自注意力模块中的查询(query)、键(key)和值(value)向量;lll 表示变换器中的层数。变换后的特征 F1,...,Fm\mathcal{F}_{1},...,\mathcal{F}_{m}F1,...,Fm 可以合并形成2D特征图 Fl\mathcal{F}_{l}Fl(见图4)。

基于SNR的空间变化特征融合

SNR图。 如图4所示,我们的框架首先估计一个SNR图。仅给定单个输入图像 III,估计其中的噪声量并准备一个干净的 III 版本来确定每个像素的SNR值是困难且繁琐的。类似于之前的无学习去噪方法[8, 1],我们将噪声视为空间域中相邻像素间的不连续过渡。噪声分量可以建模为噪声图像与相关干净图像之间的距离。在本工作中,我们用它来估计 III 的SNR图,并使其成为我们空间变化特征融合的有效先验。给定 I∈RH×W×3I\in\mathbb{R}^{H\times W\times 3}IRH×W×3,我们首先计算其灰度图 Ig∈RH×WI_{g}\in\mathbb{R}^{H\times W}IgRH×W,然后计算SNR图 S∈RH×WS\in\mathbb{R}^{H\times W}SRH×W

I^g=denoise(Ig),N=abs(Ig−I^g),S=I^g/N,\widehat{I}_{g}=denoise(I_{g}),\quad N=abs(I_{g}-\widehat{I}_{g}),\quad S= \widehat{I}_{g}/N,Ig=denoise(Ig),N=abs(IgIg),S=Ig/N, (2)

其中 denoisedenoisedenoise 是一个无学习的去噪操作(实验见第4.2和4.3节),例如局部像素平均;absabsabs 表示绝对值;N∈RH×WN\in\mathbb{R}^{H\times W}NRH×W 是估计的噪声图。尽管由于提取的噪声不准确,得到的SNR值是近似的,但如我们大量实验所验证,使用这种SNR图的框架仍然是有效的。

使用SNR图进行空间变化特征融合。 如图4所示,我们使用编码器 E\mathcal{E}E 从输入图像 III 中提取特征 FFF。然后该特征分别由长程和短程分支处理,产生长程特征 Fl∈Rh×w×C\mathcal{F}_{l}\in\mathbb{R}^{h\times w\times C}FlRh×w×C 和短程特征 Fs∈Rh×w×C\mathcal{F}_{s}\in\mathbb{R}^{h\times w\times C}FsRh×w×C。为了自适应地结合这两个特征,我们将SNR图调整大小为 h×wh\times wh×w,将其值归一化到范围 [0,1][0,1][0,1],并将归一化的SNR图 S′S^{\prime}S 作为插值权重来融合 Fl\mathcal{F}_{l}FlFs\mathcal{F}_{s}Fs

F=Fs×S′+Fl×(1−S′),\mathcal{F}=\mathcal{F}_{s}\times S^{\prime}+\mathcal{F}_{l}\times(1-S^{\prime}),F=Fs×S+Fl×(1S), (3)

其中 F∈Rh×w×C\mathcal{F}\in\mathbb{R}^{h\times w\times C}FRh×w×C 是输出特征,将被传递给解码器以生成最终的输出图像。由于SNR图中的值动态地揭示了输入图像不同区域的噪声水平,这种融合可以自适应地结合局部(短程)和非局部(长程)图像信息来生成 F\mathcal{F}F

变换器中的SNR引导注意力

传统变换器结构的局限性。 尽管传统变换器可以捕获非局部信息来增强图像,但它们存在关键问题。在原始结构中,注意力是在所有块之间计算的。为了增强一个像素,长程注意力可能来自任何图像区域,而不管其信号和噪声水平如何。事实上,极低SNR的区域主要由噪声主导。因此,它们的信息是不准确的,会严重干扰图像增强。在此,我们提出SNR引导的注意力来改进变换器在此特定任务中的表现。

SNR感知变换器。 图5展示了我们的SNR感知变换器及其新的自注意力模块。给定输入图像 I∈RH×W×3I\in\mathbb{R}^{H\times W\times 3}IRH×W×3 和相关的SNR图 S∈RH×WS\in\mathbb{R}^{H\times W}SRH×W,我们首先将 SSS 调整为 S′∈Rh×wS^{\prime}\in\mathbb{R}^{h\times w}SRh×w 以匹配特征图 FFF 的大小。然后我们按照将 FFF 分块的方式将 S′S^{\prime}S 划分为 mmm 个块,并计算每个块的平均值,即 Si∈R1,i={1,...,m}S_{i}\in\mathbb{R}^{1},i=\{1,...,m\}SiR1,i={1,...,m}。我们将这些值打包成向量 S∈Rm\mathcal{S}\in\mathbb{R}^{m}SRm。它在变换器的注意力计算中充当掩码(mask),可以避免来自极低SNR图像区域的消息在变换器中传播(见图5)。向量 S\mathcal{S}S 的第 iii 个元素的掩码值

图5: 图解:变换器中的SNR引导注意力。黑色方块表示被SoftMax忽略的元素;彩色方块表示特征令牌之间的相似度。它们用于SoftMax计算。

===== 第 5 页 =====

表示为:

Si={0,Si<s1,Si≥s, i={1,...,m},\mathcal{S}_{i}=\begin{cases}0,&S_{i}<s\\ 1,&S_{i}\geq s\end{cases},\,i=\{1,...,m\},Si={0,1,Si<sSis,i={1,...,m}, (4)

其中 sss 是一个阈值。接下来,我们将 S\mathcal{S}S 堆叠 mmm 份以形成矩阵 S′∈Rm×m\mathcal{S}^{\prime}\in\mathbb{R}^{m\times m}SRm×m。假设多头自注意力(MSAMSAMSA)模块(式(1))的头数为 BBB,则变换器第 iii 层中第 bbb 个头自注意力的计算 Attentioni,bAttention_{i,b}Attentioni,b 公式化为:

Qi,b=qiWbq,Ki,b=kiWbk, Vi,b=viWbv,以及\mathbf{Q}_{i,b}=q_{i}W^{q}_{b},\mathbf{K}_{i,b}=k_{i}W^{k}_{b}, \,\mathbf{V}_{i,b}=v_{i}W^{v}_{b},\qquad\text{以及}Qi,b=qiWbq,Ki,b=kiWbk,Vi,b=viWbv,以及 (5)
Attentioni,b(Qi,b,Ki,b,Vi,b)=Softmax(Qi,bKi,bTdk+(1−S′)σ)Vi,b,Attention_{i,b}(\mathbf{Q}_{i,b},\mathbf{K}_{i,b},\mathbf{V}_{i ,b})=\text{Softmax}(\frac{\mathbf{Q}_{i,b}\mathbf{K}_{i,b}^{T}}{\sqrt{d_{k}}}+(1- \mathcal{S}^{\prime})\sigma)\mathbf{V}_{i,b},Attentioni,b(Qi,b,Ki,b,Vi,b)=Softmax(dkQi,bKi,bT+(1S)σ)Vi,b, (6)

其中 qiq_{i}qikik_{i}kivi∈Rm×(p×p×C)v_{i}\in\mathbb{R}^{m\times(p\times p\times C)}viRm×(p×p×C) 是式(1)中的输入2D特征;WbqW^{q}_{b}WbqWbkW^{k}_{b}WbkWbv∈R(p×p×C)×CkW^{v}_{b}\in\mathbb{R}^{(p\times p\times C)\times C_{k}}WbvR(p×p×C)×Ck 表示第 bbb 个头的投影矩阵;Qi,b\mathbf{Q}_{i,b}Qi,bKi,b\mathbf{K}_{i,b}Ki,bVi,b∈Rm×Ck\mathbf{V}_{i,b}\in\mathbb{R}^{m\times C_{k}}Vi,bRm×Ck 分别是注意力计算中的查询、键和值特征。

Softmax() 和 Attentioni,b()Attention_{i,b}()Attentioni,b() 的输出形状分别是 m×mm\times mm×mm×Ckm\times C_{k}m×Ck,其中 CkC_{k}Ck 是自注意力计算中的通道数。此外,dk\sqrt{d_{k}}dk 用于归一化,σ\sigmaσ 是一个小的负标量 −1e9-1e91e9。所有 BBB 个头的输出被拼接起来。所有值经过线性投影,产生变换器第 iii 层中 MSAMSAMSA 的最终输出。这样,我们确保长程注意力仅来自具有足够SNR的图像区域

损失函数

数据流。 给定输入图像 III,我们首先应用带有卷积层的编码器提取特征 FFF。编码器中的每个阶段包含一个卷积层和LeakyReLU[47]的堆叠。编码器后使用残差卷积块。然后,我们将 FFF 前向传播到长程和短程分支以产生特征 Fl\mathcal{F}_{l}FlFs\mathcal{F}_{s}Fs。最后,我们将 Fl\mathcal{F}_{l}FlFs\mathcal{F}_{s}Fs 融合成 F\mathcal{F}F,并使用解码器(与编码器对称)将 F\mathcal{F}F 转换为残差 RRR。最终的输出图像 I′I^{\prime}II′=I+RI^{\prime}=I+RI=I+R

损失项。 我们使用两个重建损失项来训练我们的框架,即Charbonnier损失[25]和感知损失(perceptual loss)。Charbonnier损失写为:

Lr=∥I′−I^∥2+ϵ2,L_{r}=\sqrt{\|I^{\prime}-\widehat{I}\|_{2}+\epsilon^{2}},Lr=II2+ϵ2, (7)

其中 I^\widehat{I}I 是真实值(ground truth),在所有实验中 ϵ\epsilonϵ 设置为 10−310^{-3}103。感知损失使用 L1L_{1}L1 损失比较 I^\widehat{I}II′I^{\prime}I 之间的VGG特征距离:

Lvgg=∥Φ(I′)−Φ(I^)∥1,L_{vgg}=\|\Phi(I^{\prime})-\Phi(\widehat{I})\|_{1},Lvgg=∥Φ(I)Φ(I)1, (8)

其中 Φ()\Phi()Φ() 是从VGG网络[37]中提取特征的操作。总体损失函数是:

L=Lr+λLvgg,L=L_{r}+\lambda L_{vgg},L=Lr+λLvgg, (9)

其中 λ\lambdaλ 是一个超参数。

4 实验

数据集和实现细节

我们在几个数据集上评估我们的框架,这些数据集在低光照图像区域可观察到噪声。它们是LOL (v1 & v2) [45, 53]、SID [5]、SMID [4] 和 SDSD [39]。

LOL在v1和v2版本中都有明显噪声。LOL-v1 [45]包含485对低光/正常光图像用于训练,15对用于测试。每对包括一个低光照输入图像和一个关联的曝光良好的参考图像。LOL-v2 [53]分为LOL-v2-real和LOL-v2-synthetic。LOL-v2-real包含689对低光/正常光图像用于训练,100对用于测试。大多数低光照图像是通过改变曝光时间和ISO(其他相机参数固定)收集的。LOL-v2-synthetic是通过分析RAW格式的照度分布创建的。

对于SID和SMID,每个输入样本是一对短曝光和长曝光图像。SID和SMID都有严重的噪声,因为低光照图像是在极暗环境下捕获的。对于SID,我们使用索尼相机捕获的子集,并遵循SID提供的脚本,使用rawpy的默认ISP将低光照图像从RAW转换到RGB。对于SMID,我们使用其全部图像,并将RAW数据也转换为RGB,因为我们的工作在RGB域中进行低光照图像增强。我们根据[4]的设置划分训练和测试集。

最后,我们采用SDSD数据集[39](静态版本)进行评估。它包含一个室内子集和一个室外子集,两者都提供低光和正常光图像对。

我们在PyTorch[34]中实现我们的框架,并在配备2080Ti GPU的PC上进行训练和测试。我们使用高斯分布随机初始化网络参数从头开始训练我们的方法,并采用标准数据增强,例如垂直和水平翻转。我们框架的编码器有三个卷积层(步长分别为1, 2, 和2),编码器后有一个残差块。解码器与编码器对称,上采样机制使用像素洗牌层(pixel shuffle layer)[36]实现。为了最小化损失,我们采用Adam[23]优化器,动量设置为0.9。

与当前方法的比较

我们将我们的方法与一系列丰富的低光照图像增强SOTA方法进行比较,包括Dong [9]、LIME [15]、MF [11]、SRIE [12]、BIMEF [55]、DRD [45]、RRM [28]、SID [5]、DeepUPE [40]、KIND [61]、DeepLPF [33]、FIDE [48]、LPNet [26]、MIR-Net [59]、RF [24]、3DLUT [60]、A3DLUT [42]、Band [52]、EG [20]、Retinex [29] 和 Sparse [53]。此外,我们将我们的框架与两种用于低级任务的近期变换器结构进行了比较,即IPT [6]和Uformer [44]。

定量分析。 我们采用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和结构相似性指数(Structural Similarity Index, SSIM)[43]进行评估。通常,较高的SSIM意味着结果中具有更多高频细节和结构。表1-3显示了在LOL-v1、LOL-v2-real和LOL-v2-synthetic上的比较结果。我们的方法超越了所有基线。请注意,这些数字要么来自各自的论文,要么通过运行各自的公开代码获得。在LOL-v1上,我们的方法(24.61/0.842)也优于[22](22.81/0.827)和[62](21.71/0.834)。表4比较了在SID、SMID、SDSD-indoor和SDSD-outdoor上的方法。我们的方法取得了最佳性能。

定性分析。 首先,我们在图6(顶行)中展示视觉样本,将我们的方法与在LOL-v1上取得最佳PSNR性能的基线进行比较。我们的结果显示出更好的视觉质量,具有更高的对比度、更精确的细节、颜色一致性和更好的亮度。图6还展示了在LOL-v2-real和LOL-v2-synthetic上的视觉比较。虽然这些数据集中的原始图像有明显的噪声和弱光照,但我们的方法仍然可以产生更真实的结果。此外,在具有复杂纹理的区域,我们的输出展现出更少的视觉伪影。

图7(顶行)显示了在SID上的视觉比较,表明我们的方法能有效处理

表1: LOL-v1上的定量比较。
(注意:原文表格格式有误,PSNR和SSIM行错位,已根据上下文和常规理解修复格式)

表3: LOL-v2-synthetic上的定量比较。
(注意:原文表格格式有误,PSNR和SSIM行错位,已根据上下文和常规理解修复格式)

图6: 在LOLv1、LOL-v2-real和LOL-v2-synthetic(从上到下)上的视觉比较。我们的方法产生更少的噪声和更高的可见度。

===== 第 7 页 =====

噪声严重的低光照图像。图7还展示了在SMID、SDSD-indoor和SDSD-outdoor上的视觉结果。这些结果也表明我们的方法在增强图像亮度和揭示细节的同时抑制噪声是有效的。

用户研究。 我们进一步进行了有100名参与者的大规模用户研究,以评估人类对我们方法和五种最强基线(根据在SID、SMID和SDSD上的平均PSNR选择)增强由iPhone X或华为P30拍摄的低光照照片的感知效果。总共在多种环境(包括道路、公园、图书馆、学校、人像等)中拍摄了30张低光照照片,其中50%图像像素的强度低于30%。

遵循[40]的设置,我们通过用户对图8所示的六个问题进行评分来评估结果,评分采用李克特量表(Likert scale),从1(最差)到5(最好)。所有方法都在SDSD-outdoor上训练,因为[39]表明训练好的模型可以有效地增强手机拍摄的低光照图像。图8报告了不同方法的评分分布,其中我们的方法获得了更多的“红色”(5分)和更少的“蓝色”(1分)评分。此外,我们使用配对t检验(使用MS Excel中的T-TEST函数)对我们的方法与其他每种方法的评分进行了统计分析。在显著性水平0.001下,所有t检验结果都具有统计显著性,因为所有p值均小于0.001。

消融研究

我们考虑了四种消融设置,分别从我们的框架中移除不同的组件。

  • “Ours w/o LLL 移除了长程分支,因此框架只有卷积操作。
  • “Ours w/o SSS 移除了短程分支,保留了完整的长程分支和SNR引导的注意力。
  • “Ours w/o SASASA 在"Ours w/o SSS"的基础上进一步移除了SNR引导的注意力,只保留了最深层的基本变换器结构
  • “Ours w/o AAA 移除了SNR引导的注意力。

我们在所有七个数据集上进行了消融研究。表5总结了结果。与所有消融

表4: 在SID、SMID、SDSD-indoor和SDSD-outdoor上的定量比较。我们的方法在所有数据集上始终表现最佳。

图7: 在SID(顶行)、SMID(第二行)、SDSD-indoor(第三行)和SDSD-outdoor(第四行)上的定性比较。

===== 第 8 页 =====

设置相比,我们的完整设置产生了最高的PSNR和SSIM。“Ours w/o LLL”、“Ours w/o SSS” 和 “Ours w/o SASASA” 展示了单独使用卷积操作或变换器结构的缺点,从而证明了联合利用短程(卷积模型)和长程(变换器结构)操作的有效性。结果还显示了 “SNR引导注意力”(“Ours w/o AAA” vs. “Ours”)和 “SNR引导融合”(“Ours w/o SSS” vs. “Ours”)的效果。

SNR先验的影响

输入我们框架的SNR是通过对输入帧应用无学习的去噪操作(式(2))获得的。在所有实验中,考虑到其速度,我们采用局部均值作为去噪操作。在本节中,我们分析采用其他操作(包括非局部均值[1]和BM3D[8])时的影响。图9显示了结果,表明我们的框架对获取SNR输入的策略不敏感。所有这些结果都优于基线。

5 结论

我们提出了一个新颖的SNR感知框架,该框架联合利用短程和长程操作,以空间变化的方式动态增强像素。采用SNR先验来指导特征融合。SNR感知变换器通过一个新的自注意力模块构建。包括用户研究在内的大量实验表明,使用相同的网络结构,我们的框架在代表性基准数据集上始终取得最佳性能。

我们未来的工作是探索其他语义信息来增强空间变化机制。此外,我们计划通过同时考虑时域和空域变化操作,将我们的方法扩展到处理低光照视频。另一个方向是探索生成方法[13, 32]来处理低光照图像中接近黑色的区域。

图8: 用户研究中六个问题上不同方法的评分分布。纵轴记录了100名参与者给出的评分频率。显然,我们的方法获得了更多的“红色”(5分)和更少的“蓝色”(1分)。

表5: 第4.3节消融研究的结果。

图9: 当结合不同的去噪操作来获取输入SNR先验时,我们的框架在数据集上产生一致的性能。

http://www.lryc.cn/news/604918.html

相关文章:

  • 【网络工程师软考版】路由协议 + ACL
  • 15、点云<—>深度图转换原理
  • rabbitmq--默认模式(点对点)
  • 【深度学习新浪潮】3D城市建筑多样化生产的研发进展调研
  • vulhub-Thales靶机练习
  • STL学习(?、常用的算数算法和集合算法)
  • SAP-ABAP:SAP ABAP OpenSQL JOIN 操作权威指南高效关联多表数据
  • xxljob-快速上手
  • 亚马逊云科技:赋能企业数字化转型,解决实际发展难题
  • 【7】串口编程三种模式(查询/中断/DMA)韦东山老师学习笔记(课程听不懂的话试着来看看我的学习笔记吧)
  • 飞算科技:原创技术重塑 Java 开发,引领行业数智化新浪潮
  • Power Pivot 数据分析表达式(DAX)
  • 制造业企业大文件传输的痛点有哪些?
  • SpringBoot 整合 自定义MongoDB
  • C语言:逆序输出0到9的数组元素
  • ragflow 报错ERROR: [Errno 111] Connection refused
  • KOI 2025 Round 1 Unofficial Mirror
  • 【硬件-笔试面试题】硬件/电子工程师,笔试面试题-51,(知识点:stm32,GPIO基础知识)
  • AOF和RDB分别适用于什么场景 高读写场景用RDB还是AOF好
  • 悬浮地(组件地与机壳绝缘)
  • 《从 Vim 新手到“键圣”:我的手指进化史》
  • 如何轻松将 Windows 10 或 11 PC恢复出厂设置
  • Cockpit管理服务器
  • ORACLE的表维护
  • RHEL 9.5 离线安装 Ansible 完整教程
  • 力扣热题100-------74.搜索二维矩阵
  • ES 文件浏览器:多功能文件管理与传输利器
  • 深度学习中的注意力机制:原理、应用与未来展望
  • 1+1>2!特征融合如何让目标检测更懂 “场景”?
  • SD-WAN助力船舶制造业数字化转型:打造智能化网络支撑体系