当前位置：首页 > news >正文

MambaVision

news 2025/9/15 7:18:51

核心速览
研究背景

研究问题
：这篇文章提出了一种新的混合Mamba-Transformer骨干网络，称为MambaVision，专为视
觉应用量身定制。研究的核心问题是如何有效地结合Mamba的状态空间模型（SSM）和Transf
ormer的自注意力机制，以提高视觉特征建模的能力。
研究难点
：该问题的研究难点包括：Mamba的自回归公式在计算机视觉任务中存在局限性，难以捕捉
全局上下文和长距离空间依赖性；Transformer的二次复杂度使其训练和部署计算开销巨大。
相关工作
：近年来，Transformer在不同领域（如计算机视觉、自然语言处理、语音处理和机器人学）
已成为事实上的架构。Mamba通过引入新的选择机制实现了线性时间复杂度，并在不同语言
建模任务中表现优异。现有的Mamba-based视觉任务骨干网络在ImageNet-1K数据集上的表
现仍不如基于ViT和CNN的模型。
研究方法
这篇论文提出了MambaVision，一种混合Mamba和Transformer的架构，用于解决视觉任务中的全局
上下文和长距离空间依赖性问题。具体来说，
Mamba块的重设计
：首先，重新设计了Mamba块，使其更适合视觉任务。Mamba块的核心公式如下： $KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲h^{\prime}(t)&a…$
其中， $h (t)$ 是隐藏状态， $x (t)$ 是输入， $A$ 、 $B$ 和 $C$ 是参数。通过离散化处理，进一步提高了计算效率。
混合架构
：提出了包含MambaVision混合器和Transformer块的混合架构。具体来说，将图像输入转换
为重叠的补丁，并通过多层卷积和池化操作逐步降低分辨率。在每个阶段的最后，使用自注意
力块来捕捉全局上下文和长距离空间依赖性。
MambaVision混合器
：重新设计了原始的Mamba混合器，使其更适合视觉任务。混合器的输出公式如下： $KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲& X_ 1=\ope…$
其中， $\operatorname{Scan}$ 是选择性扫描操作， $\sigma$ 是SiLU激活函数， $KaTeX parse error: Undefined control sequence: \operatorna at position 1: \̲o̲p̲e̲r̲a̲t̲o̲r̲n̲a̲ ̲me{Conv}$ 和 $\operatorname{Concat}$ 分别表示1D卷积和拼接操作.
实验设计
数据集
：在ImageNet-1K数据集上进行图像分类实验，使用标准的训练配方，训练300个epoch，初始
学习率为0.005，使用LAMB优化器，全局批量大小为4096。
下游任务：在MS
COCO和ADE20K数据集上进行目标检测、实例分割和语义分割任务。对于目标检测和实例分
割，使用Mask-RCNN头，初始学习率为0.0001，批量大小为16。对于语义分割，使用uperNet
头，初始学习率为 $6 e - 5$ ，批量大小为16。
硬件：使用32个A100 GPU进行图像分类任务，8个A100 GPU进行所有下游任务。
结果与分析
图像分类
：在ImageNet-1K数据集上，MambaVision模型在Top-1准确率和图像吞吐量方面达到了新的S
OTA性能。与流行的卷积神经网络和Transformer模型相比，MambaVision在某些情况下表现
出显著的改进。例如，MambaVision-B在Top-1准确率上比ConvNeXt-B高出0.4%，同时具有
更高的图像吞吐
目标检测和实例分割：在MS
COCO数据集上，使用预训练的MambaVision-T骨干网络进行目标检测和实例分割，结果表明
MambaVision模型在box AP和mask AP方面优于其他竞争模型。例如，MambaVision-T在box
AP上比Swin-T高出0.6%。
语义分割
：在ADE20K数据集上，使用uperNet进行语义分割实验，结果表明MambaVision模型在mIoU
方面优于相似大小的竞争模型。例如，MambaVision-B在mIoU上比Swin-B高出1.0%。
总体结论
这篇论文提出了MambaVision，第一种专门为视觉应用设计的Mamba-Transformer混合骨干网络。通
过重新设计Mamba块和引入自注意力块，显著提高了模型捕捉全局上下文和长距离空间依赖性的能力
。MambaVision在ImageNet-1K数据集上达到了新的SOTA性能，并在下游任务中表现出色。这些发现
为进一步研究和开发混合视觉模型奠定了基础。
论文评价
优点与创新1. 重新设计Mamba公式
：论文提出了一种新的Mamba公式，增强了其在视觉特征高效建模方面的能力。
混合架构
：引入了包含MambaVision混合块和Transformer块的混合架构，显著提高了捕捉全局上下文
和长距离空间依赖性的能力。
ImageNet-1K数据集上的新SOTA性能
：在ImageNet-1K数据集上，MambaVision模型变体在Top-1准确率和图像吞吐量方面达到了
新的SOTA性能。
下游任务中的优越表现：在MS
COCO和ADE20K数据集上的目标检测、实例分割和语义分割任务中，MambaVision模型优于
同等大小的骨干网络，表现出更优的性能。
全面的消融研究
：对Mamba和Transformer块的集成模式进行了系统的研究，证明了在最后阶段使用自注意力
块可以显著提高模型捕捉全局上下文和长距离空间依赖性的能力。
高效的图像吞吐量：混合架构还使得图像吞吐量比纯Mamba或ViT模型更高。
不足与反思
局限性
：尽管MambaVision在某些任务中表现出色，但论文指出其设计目标是平衡准确率和吞吐量，
因此在某些情况下可能不如其他模型高效。
下一步工作
：论文建议未来的研究可以进一步优化下游任务的超参数调优，以进一步提高MambaVision在
各种视觉任务中的表现。
关键问题及回答
问题1：MambaVision模型在图像分类任务中是如何结合Mamba块和Transformer块的？
MambaVision模型通过在网络的后期阶段（第3和第4阶段）引入多个自注意力块来结合Mamba块和Tr
ansformer块。具体来说，MambaVision模型的设计包括以下几个关键步骤：
多分辨率架构
：MambaVision模型采用多分辨率架构，前两个阶段使用CNN层进行快速特征提取，后两个
阶段结合MambaVision和Transformer块。
MambaVision混合器
：在后期阶段，MambaVision混合器被用来进行快速特征提取。混合器包含一个对称分支和一个SSM（状态空间模型）分支，分别进行选择性扫描和序列处理。最终输出通过一个线性层投
影到嵌入空间。
自注意力机制
：在混合器的对称分支中，增加了自注意力机制，以增强对全局上下文和长距离空间依赖性的
捕捉能力。
通过这种设计，MambaVision模型能够在保持较高图像吞吐量的同时，显著提高对全局上下文的理解
和长距离空间依赖性的捕捉能力。
问题2：MambaVision模型在目标检测和实例分割任务中的表现如何？
在MS COCO数据集上，MambaVision模型在目标检测和实例分割任务中表现出色。具体结果如下：
目标检测：使用Mask
R-CNN检测头，MambaVision-T、MambaVision-S和MambaVision-B模型在box
AP（平均精度）方面分别达到了46.4%、48.1%和49.5%。与ConvNeXt-T和Swin-T模型相比，
MambaVision模型在各项指标上均有显著提升。
实例分割：使用Mask R-CNN和Cascade Mask R-CNN检测头，MambaVision模型在mask
AP（平均精度）方面也表现出色，显著优于ConvNeXt-T和Swin-T模型。例如，MambaVision
-B模型在mask AP方面达到了49.5%，比Swin-B模型高出0.9%。
这些结果表明，MambaVision模型在目标检测和实例分割任务中具有较高的检测精度和分割质量。
问题3：MambaVision模型在语义分割任务中的表现如何？
在ADE20K数据集上，MambaVision模型在语义分割任务中也表现出色。具体结果如下：
mIoU（平均交并比）
：MambaVision模型在mIoU方面达到了49.1%，显著优于同样大小的Swin-T、Swin-S和SwinB模型。例如，MambaVision-B模型的mIoU比Swin-B模型高出1.0%。
高分辨率设置
：尽管没有进行广泛的超参数调优，MambaVision模型在高分辨率设置下仍然表现出色，验证
了其作为有前途的骨干网络的可能性。
这些结果表明，MambaVision模型在语义分割任务中具有较高的分割精度和鲁棒性。