当前位置: 首页 > news >正文

图像超分辨率技术新进展:混合注意力聚合变换器HAAT

目录

1. 引言:

2. 混合注意力聚合变换器(HAAT):

2.1 Swin-Dense-Residual-Connected Block(SDRCB):

2.2 Hybrid Grid Attention Block(HGAB):

3. 实验结果:

4. 结论:


1. 引言:

在计算机视觉领域,单图像超分辨率(SISR)技术的目标是从一个低分辨率的图像中重建出高分辨率的图像。这一技术因其在多种应用中的广泛需求而成为一个关键的研究领域。传统的基于CNN的方法,如SRCNN、VDSR和SRGAN,通过使用卷积神经网络显著改善了图像的纹理特征恢复。然而,这些方法在模拟图像中的长距离依赖关系方面存在局限,这主要是由于CNN的固有偏置,包括参数依赖的感受野扩展和卷积操作的核大小限制,这可能导致忽略图像中的非局部空间信息。

为了解决这些问题,研究者开始探索基于Transformer的SISR模型,这些模型能够利用其长距离依赖模拟的能力,从而提高SISR的性能。特别是,SwinIR利用Swin Transformer取得了显著的改进,而混合注意力变换器(HAT)通过结合重叠的交叉注意力模块、基于窗口的自注意力和通道注意力,也产生了最先进的结果。

2. 混合注意力聚合变换器(HAAT):

HAAT模型的提出是为了解决现有基于Transformer的方法在图像恢复问题上的局限性,尤其是当前基于窗口的Transformer网络将自注意力计算限制在集中区域,导致感受野受限并且无法充分利用原始图像的特征信息。

HAAT通过整合Swin-Dense-Residual-Connected Blocks(SDRCB)和Hybrid Grid Attention Blocks(HGAB)来构建,其中SDRCB在保持精简架构的同时扩展了感受野,从而提高了性能。HGAB则结合了通道注意力、稀疏注意力和窗口注意力,以改善非局部特征融合,并实现更引人注目的视觉结果。

2.1 Swin-Dense-Residual-Connected Block(SDRCB):

SDRCB是HAAT模型的一个关键组成部分,它利用Swin Transformer Layer(STL)的移窗自注意力机制来捕获长距离依赖关系。STL根据全局内容调整模型的强调点,增强特征提取,并在网络加深时保持全局细节,扩大感受野而不降低性能。SDRCB通过与密集残差连接的结合,进一步扩展了感受野,并提高了对关键信息的强调,这对于需要细致、上下文敏感处理的SISR任务至关重要。SDRCB的计算过程涉及到多级特征图的连接、特征转换和残差缩放,其中残差缩放因子用于稳定训练过程。下图是SDRCB框架:

2.2 Hybrid Grid Attention Block(HGAB):

HGAB是HAAT模型的另一个核心组成部分,它由混合注意力层(MAL)和多层感知器(MLP)层组成。HGAB的工作流程是将输入特征按照通道分割,并分别通过不同的自注意力机制进行处理,包括窗口多头自注意力(W-MSA)、稀疏窗口多头自注意力(SW-MSA)和网格多头自注意力(Grid-MSA)。此外,HGAB还对输入特征执行通道注意力操作。HGAB的设计采用了后归一化方法,以增强网络训练的稳定性。MAL的计算过程涉及到对输入特征的分割、不同自注意力机制的处理以及通道注意力的操作,最终将这些特征重新组合并加到原始特征上。下图是HGAB结构:

3. 实验结果:

HAAT模型在DF2K数据集上进行了训练,该数据集是一个包含DIV2K和Flickr2K的大规模聚合数据集。在训练过程中,研究人员通过双三次下采样方法生成了不同缩放因子的低分辨率图像。为了评估模型的有效性,研究人员在Set5和Set14等知名的SISR基准数据集上进行了性能评估。实验结果表明,HAAT在峰值信噪比(PSNR)和结构相似性(SSIM)这两个评价指标上均优于现有的最先进技术。这一结果证明了HAAT在参数数量更少、计算需求更低的情况下,仍然能够取得比现有最先进模型更好的结果。下图是HAAT与SOTA方法的定量比较:

4. 结论:

本文介绍了HAAT,这是一种新型的单图像超分辨率模型。HAAT通过增强DRCT架构,强调了信息流的稳定性和通过残差块中的密集连接扩展感受野,以及通过移窗注意力机制自适应地获取全局信息。这使得模型能够增强对全局地理信息的强调,优化其能力,并避免信息瓶颈。此外,HAAT还提供了HGAB来表示图像中的长距离关系,通过整合通道注意力、稀疏注意力和窗口注意力,提高了多级结构相似性。

HAAT在DF2K数据集上进行了训练,并在Set5和Set14数据集上进行了验证。实验结果表明,HAAT在单图像超分辨率任务中的性能超越了现有的最先进技术。

引用论文:HAAT: Hybrid Attention Aggregation Transformer for Image Super-Resolution

http://www.lryc.cn/news/499470.html

相关文章:

  • 文件IO——01
  • 【opencv入门教程】5. Mat 类用法
  • SSM虾米音乐项目2--分页查询
  • nodejs 获取本地局域网 ip 扫描本地端口
  • 区块链签名种类
  • 【062B】基于51单片机无线病房呼叫系统(+时间)【Keil程序+报告+原理图】
  • 突破空间限制!从2D到3D:北大等开源Lift3D,助力精准具身智能操作!
  • 【pyspark学习从入门到精通24】机器学习库_7
  • Echart折线图属性设置 vue2
  • LabVIEW-简单串口助手
  • Linux下,用ufw实现端口关闭、流量控制(二)
  • C#开发-集合使用和技巧(九)Join的用法
  • Dockerfile容器镜像构建技术
  • Github 2024-12-01 开源项目月报 Top20
  • Spring Boot 3项目集成Swagger3教程
  • NISP信息安全一级考试200道;免费题库;大风车题库
  • Android ConstraintLayout 约束布局的使用手册
  • 在网安中什么是白帽子
  • 软件专业科目难度分级 你输在了哪里?
  • 微信小程序实现图片拖拽调换位置效果 -- 开箱即用
  • 关于“浔川AI翻译”使用情况的调研报告
  • 《芯片:科技之核,未来之路》
  • ️ 在 Windows WSL 上部署 Ollama 和大语言模型的完整指南20241206
  • 使用Tomcat搭建简易文件服务器
  • 《C++赋能:构建智能工业控制系统优化算法新引擎》
  • node.js中跨域请求有几种实现方法
  • Node.js新作《循序渐进Node.js企业级开发实践》简介
  • 常见排序算法总结 (四) - 快速排序与随机选择
  • Doris的基础架构
  • python录制鼠标键盘操作循环播放