当前位置: 首页 > news >正文

MLP-Mixer: An all-MLP Architecture for Vision

Abstract

在计算机视觉领域,卷积神经网络(CNNs)是首选的模型。最近,基于注意力机制的网络,如Vision Transformer,也变得流行起来。在这篇论文中,我们展示了卷积和注意力虽然都足以实现良好的性能,但它们两者都不是必需的。我们提出了MLP-Mixer,这是一种仅基于多层感知机(MLPs)的架构。MLP-Mixer包含两种类型的层:一种是独立应用于图像块的MLPs(即“混合”每个位置的特征),另一种是跨图像块应用MLPs(即“混合”空间信息)。在大型数据集上进行训练,或使用现代正则化方案时,MLP-Mixer在图像分类基准测试中取得了竞争性的分数,其预训练和推断成本与最先进的模型相当。我们希望这些结果能够激发超越已经建立的CNNs和Transformers领域的进一步研究。

1 Introduction

计算机视觉的历史表明,更大的数据集与增强的计算能力往往导致范式转变。尽管卷积神经网络(CNNs)一直是计算机视觉的事实标准,但最近基于自注意力层的Vision Transformers [14](ViT)取得了最先进的性能,成为一种替代方案。ViT延续了去除手工制作的视觉特征和归纳偏见的长期趋势,并进一步依赖于从原始数据中学习。

我们提出了MLP-Mixer架构(简称"Mixer"),这是一种竞争性但在概念上和技术上简单的替代方案,不使用卷积或自注意力。相反,Mixer的架构完全基于多层感知机(MLPs),这些MLPs反复应用于空间位置或特征通道。Mixer

http://www.lryc.cn/news/281034.html

相关文章:

  • redis前缀匹配数据迁移数据
  • 云贝教育 |【技术文章】存储对象的LIBRARY CACHE LOCK/PIN实验(一)
  • C# 快速模指数运算 快速求余运算
  • Chisel入门初步0
  • MySQL 8.0中移除的功能(一)
  • 可抓取性和可索引性:它们是什么以及如何影响搜索引擎优化
  • Django教程第4章 | Web开发实战-三种验证码实现
  • 深度探讨 Golang 中并发发送 HTTP 请求的最佳技术
  • VUE指令(二)
  • 开源对象存储服务器MinIO本地部署并结合内网穿透实现远程访问管理界面
  • 【TypeScript】tsconfig.json文件到底是干啥的?作用是什么?
  • wagtail的数据模型和渲染
  • OpenHarmony4.0适配LVDS屏幕驱动
  • 【playwright】新一代自动化测试神器playwright+python系列课程01-playwright驱动浏览器
  • POSIX API与网络协议栈
  • 互联网加竞赛 基于卷积神经网络的乳腺癌分类 深度学习 医学图像
  • 腾讯云 IPv6 解决方案
  • Appium 自动化测试
  • 深入浅出Android dmabuf_dump工具
  • Guava RateLimiter预热模型
  • 【搭建个人知识库-3】
  • 如何看待 Linux 内核邮件列表重启将内核中的 C 代码转换为 C++
  • springboot网关添加swagger
  • 代码随想录 Leetcode383. 赎金信
  • 上下左右视频转场模板PR项目工程文件 Vol. 05
  • 【正点原子STM32连载】第三十三章 单通道ADC采集实验 摘自【正点原子】APM32E103最小系统板使用指南
  • Linux系统使用docker部署Geoserver(简单粗暴,复制即用)
  • libcurl使用默认编译的winssl进行https的双向认证
  • MySQL运维实战(3.3) 管理数据库(database)
  • Web3去中心化存储:重新定义云服务