当前位置: 首页 > news >正文

轻量级视觉骨干网络 MobileMamba: Lightweight Multi-Receptive Visual Mamba Network

MobileMamba

  • 快速链接
  • 解决问题:视觉模型在移动设备端性能和效果的平衡性
  • 解决方法:改进网络结构+训练和测试策略
    • 网络结构改进
    • 训练和测试策略
  • 实验支撑:图像分类、分割,目标检测等
    • 图像分类结果对比
    • 目标检测和实例分割结果对比
    • 语义分割结果对比

快速链接

原文 : https://arxiv.org/pdf/2411.15941
代码 : https://github.com/lewandofskee/MobileMamba

解决问题:视觉模型在移动设备端性能和效果的平衡性

在这里插入图片描述
因为移动设备的算力受限,移动设备上常使用轻量级网络。在图像领域,常用的轻量级网络主要分基于CNN的网络,以及基于vision-transformer的网络,但都有其局限性。基于CNN的网络,速度快,效果好,但无法捕捉长距的关系。基于vision-transformer的网络可捕捉长距离间关系,但其计算复杂度与输入图尺寸的平方成正比。state-space模型可以用线性复杂度的计算量捕获长距关系。(state-space和Mamba模型应存在某些关系)。已有的基于Mamba的网络flops低,但推理速度慢,效果差。本文提出的MobileMamba可以平衡效果和性能, imagenet-1K Top1 83.6% ,超最优。GPU上速度比localVim快21倍。

解决方法:改进网络结构+训练和测试策略

在这里插入图片描述
本文通过改进Mamba网络结构,使用一些训练和测试策略,达到对Mamba模型的轻量化,并且保证其优异的效果。

网络结构改进

在这里插入图片描述
粗颗粒上:本文对比了常用的4阶段网络与提出的3阶段网络在输出分辨率上的差异。用imagenet-1k的图像分类实验结果说明,提出的3阶段网络在推理速度,准确性上都更优。感觉存粹是一种基于实验经验判断的结构改进。
在这里插入图片描述
细颗粒度上:本文提出了MRFFI模块(Multi-Receptive Field Feature Interaction, 多感受野特征交互)。输入特征在channel维度分配到以下三部分。
(1)long-range wavelet trasform-enhanced mamba(长程基于小波转换的mamba),用于提取全局特征,增强细颗粒度细节提取。
(2)multi-kernel depthwise convolution(多核深度可分离卷积),用于捕获多尺度的感受野。
(3)identity mapping(恒等映射,就是输出和输入相同),用于减少高分辨率空间通道冗余,降低计算复杂度,提高处理速度。

训练和测试策略

训练方面,使用了2个技巧。
(1)知识蒸馏:最小化教师模型和学生模型的 Softmax 输出之间概率分布差异。
(2)延长训练epochs: 训练的epoch数量从传统的300延长到1000,让此模型收敛。
测试方面,将批归一化层融合到前面卷积或线性层的权重、偏置中,并且保证融合前后计算结果一致。这样,通过减少计算层数,提高计算速度。

实验支撑:图像分类、分割,目标检测等

图像分类结果对比

在这里插入图片描述

目标检测和实例分割结果对比

在这里插入图片描述

语义分割结果对比

在这里插入图片描述

http://www.lryc.cn/news/499760.html

相关文章:

  • 科技云报到:数智化转型风高浪急,天翼云如何助力产业踏浪而行?
  • dockerfile部署前后端(vue+springboot)
  • c语言的思维导图
  • Android 拍照(有无存储权限两种方案,兼容Q及以上版本)
  • MongoDB在自动化设备上的应用示例
  • draggable插件——实现元素的拖动排序——拖动和不可拖动的两种情况处理
  • Redux的使用
  • 【JAVA】Java高级:多数据源管理与Sharding:数据分片(Sharding)技术的实现与实践
  • ASP.NET Core 9.0 静态资产传递优化 (MapStaticAssets )
  • LeetCode刷题day18——贪心
  • MATLAB Simulink® - 智能分拣系统
  • linuxCNC(五)HAL驱动的指令介绍
  • STM32 进阶 定时器3 通用定时器 案例2:测量PWM的频率/周期
  • 第一节、电路连接【51单片机-TB6600驱动器-步进电机教程】
  • 【通俗理解】Koopman算符与非线性动力系统分析
  • mybatis plus打印sql日志
  • ObjectMapper
  • 新增白名单赋予应用安装权限
  • 传奇996_51——脱下装备,附加属性设为0
  • 【Mac】安装Gradle
  • MySQL中的redoLog
  • Windows 安装 MySQL
  • yocto的xxx.bb文件在什么时候会拷贝文件到build目录
  • Ubuntu Server 22.04.5 LTS重启后IP被重置问题
  • Java基础复习
  • 简易图书管理系统
  • 结构型-组合模式(Composite Pattern)
  • 【知识堂】大数据
  • 力扣C语言刷题记录(三)搜索插入位置
  • 在Node.js局域网调试https的Vue项目