当前位置: 首页 > news >正文

具有HiLo注意力的快速视觉Transformer

摘要

https://arxiv.org/pdf/2205.13213
视觉Transformer(ViTs)在计算机视觉领域引发了最新且最重要的突破。其高效设计大多以计算复杂度的间接指标,即浮点运算数(FLOPs)为指导,然而,该指标与吞吐量等直接指标之间存在明显差距。因此,我们建议使用目标平台上的直接速度评估作为高效ViTs的设计原则。特别是,我们引入了一种简单且有效的ViT——LITv2,在各种不同模型尺寸下,LITv2均以更快的速度优于现有的最先进方法。LITv2的核心是一种新颖的自注意力机制,我们称之为HiLo。HiLo的灵感来源于以下见解:图像中的高频部分捕捉局部精细细节,而低频部分关注全局结构,然而,多头自注意力层忽略了不同频率特征。因此,我们提出在注意力层中将高频/低频模式分离,即将头部分成两组,其中一组通过每个局部窗口内的自注意力编码高频,另一组通过对每个窗口和输入特征图中每个查询位置的平均池化低频键和值执行全局注意力来编码低频。得益于两组的高效设计,我们通过全面对比GPU和CPU上的FLOPs、速度和内存消耗,证明了HiLo优于现有的注意力机制。例如,在CPU上,HiLo比空间降维注意力快

http://www.lryc.cn/news/532489.html

相关文章:

  • 《AI “造脸术”:生成对抗网络打造超真实虚拟人脸》
  • 2025.2.6总结
  • RK3576——USB3.2 OTG无法识别到USB设备
  • 低代码系统-插件功能分析( 某道云)
  • 如何在 FastAPI 中使用本地资源自定义 Swagger UI
  • wxWidgets生成HTML文件,带图片转base64数据
  • 基于ArcGIS的SWAT模型+CENTURY模型模拟流域生态系统水-碳-氮耦合过程研究
  • 一键掌握多平台短视频矩阵营销/源码部署
  • 2.Python基础知识:注释、变量以及数据类型、标识符和关键字、输入函数、输出函数、运算符、程序类型转换
  • 3NF讲解
  • Spring Boot框架下的单元测试
  • AI测试工程师成长指南:以DeepSeek模型训练为例
  • 【数据结构】_队列的结构与实现
  • 机器学习--2.多元线性回归
  • MySQL时间类型相关总结(DATETIME, TIMESTAMP, DATE, TIME, YEAR)
  • 朴素贝叶斯原理
  • k8s中,一.pod污点,二.pod容器污点容忍策略,三.pod优先级(PriorityClass类)
  • 【重生之学习C语言----水仙花篇】
  • 两步构建 AI 总结助手,实现智能文档摘要
  • 承压金字塔(蓝桥杯17C)
  • day33-数据同步rsync
  • Android 实现首页Tab切换并且支持懒加载功能详解
  • [Android] 360行车记录仪谷歌版
  • 基于Redis分布式锁
  • Spring Boot 条件注解:@ConditionalOnProperty 完全解析
  • canny边缘检测
  • 团建 蓝桥杯省a 15
  • 【逻辑学导论】1.6 有效性和真实性
  • IDEA 中集成 Maven,配置环境、创建以及导入项目
  • Qt跨屏窗口的一个Bug及解决方案