当前位置: 首页 > news >正文

深度学习高效性网络

为了减轻Transformer笨重的计算成本,一系列工作重点开发了高效的Vision Transformer,如Swin Transformer、PVT、Twins、CoAtNet和MobileViT。

1、字节TRT-ViT

兼具CNN的速度、Transformer精度的模型

TRT-ViT(Transformer-based Vision Transformer)是一个结合了Transformer和ViT的模型,旨在同时利用CNN和Transformer的优点,以实现更高的性能和效率。TRT-ViT将CNN作为ViT的一部分,从而实现了在速度和精度之间的平衡。

TRT-ViT的核心思想是将CNN的局部性和Transformer的全局性相结合。具体来说,TRT-ViT使用CNN提取图像的局部特征,然后将这些特征作为Transformer的输入。这样,模型可以同时捕捉图像的局部信息和全局信息,从而实现更好的性能。

TRT-ViT的另一个关键特点是其高效性。由于它结合了CNN和Transformer的优点,因此在训练和推理过程中具有较高的效率。此外,TRT-ViT还采用了一些技术来减少计算量和内存消耗,以实现更高效的模型。

在实际应用中,TRT-ViT可以广泛应用于计算机视觉任务,如图像分类、目标检测和语义分割等。通过将CNN和Transformer相结合,TRT-ViT可以在速度和精度之间取得更好的平衡,从而满足不同任务的需求。

2、EfficientFormer

EfficientFormer: Vision Transformers at MobileNet Speed,在IPhone12的推理延迟仅为1.6 ms

3、AdaptFormer

概念简单但有效的框架AdaptFormer,用于有效地将预训练的视觉Transformer(ViT)主干迁移到可伸缩的视觉识别任务。通过引入AdaptMLP,本文的AdaptFormer能够调整轻量级模块,以生成适应多个下游任务的特征。

4、Auto-scaling Vision Transformers

As-ViT(Auto-scaling Vision Transformers),这是一个无需训练的 ViT 自动扩展框架,它能以高效且有原则的方式自动设计和扩展 ViT。

5、MSG-Transformer

面向高分辨率的ViT框架:华为、华中科技大学联合提出了一种全新的信使Token来实现灵活而高效的局部信息交互。在MSG-Transformer中,信使Token负责提取每一个局部区域的信息,并与其他信使token进行交换,然后将交换后的信息传递回对应的区域。利用信使token进行信息交换有极高的灵活度,在高分辨场景有很大的潜力。

MSG Transformer引入的MSG token对计算量和模型参数都影响不大,所以其和Swin Transformer一样其计算复杂度线性于图像大小。在ImageNet上,其模型效果和Swin接近,但其在CPU上速度较快。在COCO数据集上,基于Mask R-CNN模型,也可以和Swin模型取得类似的效果。此外,信使Token的机制在建模时间信息上也有着明显优势,相信该机制在未来Transformer结构设计中能够带来更多的启发。

http://www.lryc.cn/news/408923.html

相关文章:

  • PyQt ERROR:ModuleNotFoundError: No module named ‘matplotlib‘
  • Flutter Geolocator插件使用指南:获取和监听地理位置
  • 网站基本布局CSS
  • ssm框架整合,异常处理器和拦截器(纯注解开发)
  • 古籍双层PDF制作教程:保姆级古籍数字化教程
  • Git 删除 远端的分支
  • PrgogressBar实现原理分析
  • 【HarmonyOS】HarmonyOS NEXT学习日记:七、页面与组件的生命周期
  • 【iOS】——Block循环引用
  • shell脚本自动化安装启动各种服务
  • Python - 开源库 ReportLab 库合并 CVS 和图像生成 PDF 文档
  • Java编写SIP协议
  • 大型语言模型LLM的核心概念
  • 软件测试---网络基础、HTTP
  • 韩顺平0基础学java——第39天
  • Linux文件恢复
  • 大数据的数据质量有效提升的研究
  • Flink-CDC解析(第47天)
  • 二阶段测试
  • CSP-J模拟赛day1——解析+答案
  • 【PostgreSQL案例】我要查的表没有在执行计划中
  • 《程序猿入职必会(5) · CURD 页面细节规范 》
  • 操作系统面试知识点总结5
  • BigInteger和BigDecimal类
  • 2024最新Uniapp的H5网页版添加谷歌授权验证
  • 学习java第一百四十四天
  • Meta 发布 Llama3.1,一站教你如何推理、微调、部署大模型
  • XSSFWorkbook 和 SXSSFWorkbook 的区别
  • 会议主题:NICE Seminar|神经组合优化方法的大规模泛化研究(南方科技大学王振坤副研究员)
  • 昇思25天学习打卡营第22天|CycleGAN图像风格迁移互换