当前位置: 首页 > news >正文

UniRepLKNet:用于音频、视频、点云、时间序列和图像识别的通用感知大内核ConvNet

摘要

https://arxiv.org/abs/2311.15599
大核卷积神经网络(ConvNets)最近受到了广泛的研究关注,但存在两个未解决的关键问题需要进一步研究。(1)现有大核ConvNets的架构在很大程度上遵循传统ConvNets或Transformers的设计原则,而大核ConvNets的架构设计仍未得到充分解决。(2)随着Transformer 在多种模式下的主导地位,尚待研究的是,ConvNets是否在视觉以外的领域也具有强大的通用感知能力。本文从两个方面进行了贡献。(1)我们提出了设计大核ConvNets的四个架构指导方针,其核心是利用大核和小核的本质特征-大核可以看到宽广的范围而无需深入。遵循这些指导方针,我们提出的大核ConvNet在图像识别方面表现出领先性能。例如,我们的模型在ImageNet上达到88.0%的准确率,ADE20K mIoU为55.6%,COCO box AP为56.4%,表现出比最近提出的一些强大的竞争对手更好的性能和更高的速度。(2)我们发现大核是解锁ConvNets在它们最初不擅长的领域的卓越性能的关键。采用某些与模态相关的预处理方法,即使不对架构进行特定于模态的定制,提出的模型也能在时间序列预测和音频识别任务上实现最先进的性能。代码和所有模型在https://github.com/AILabCVC/UniRepLKNet。

1、简介

使用非常大的卷积核的卷积神经网络(ConvNets)的设计范式起源于ReplkNet [11],当时ConvNets的地位受到Vision Transformers(ViTs) [12, 38, 61, 65]的挑战。受到使用全局注意力 [12, 54, 65]或使用大窗口注意力 [38, 49, 64]的ViTs的启发,ReplkNet提出使用非常大的卷积核。与使用小卷积核(例如3×3

http://www.lryc.cn/news/254828.html

相关文章:

  • Http协议与Tomcat
  • Spring AOP从入门到精通
  • Tap虚拟网卡
  • 【数电笔记】53-与非门构成的基本RS触发器
  • kubernetes(k8s)容器内无法连接同所绑定的Service ClusterIP问题记录
  • Hadoop入门学习笔记
  • 堆栈,BSS,DATA,TEXT
  • Java八股文面试全套真题【含答案】-JSON篇
  • 数据库管理-第119期 记一次迁移和性能优化(202301130)
  • 【云原生-K8s】镜像漏洞安全扫描工具Trivy部署及使用
  • 【Docker】Swarm的ingress网络
  • gcc安全特性之FORTIFY_SOURCE
  • 【JUC】二十、volatile变量的特点与使用场景
  • 软件工程期末复习(2)
  • [vue3] 使用 vite 创建vue3项目的详细流程
  • #HarmonyOS:软件安装window和mac预览Hello World
  • nginx 一键切换停机维护页面 —— 筑梦之路
  • Python作业答疑
  • 计算机网络实用工具之Hydra
  • AUTOSAR 入门
  • 新版IDEA中,module模块无法被识别,类全部变成咖啡杯无法被识
  • vue.js el-table 动态单元格列合并
  • word模板导出word文件
  • debianubuntu的nvidia驱动升级
  • 【开源视频联动物联网平台】视频接入网关的用法
  • 【bug排查解决】现象级延迟8-10s
  • 【人生感悟】不能对一个人太好是有心理学原理的
  • 动态规划学习——最长回文子序列,让字符串变成回文串的最小插入次数
  • CSS新手入门笔记整理:CSS列表样式
  • 12月07日,每日信息差