(cvpr2025) DefMamba: Deformable Visual State Space Model
论文:(cvpr2025) DefMamba: Deformable Visual State Space Model
代码:https://github.com/leiyeliu/DefMamba
作者指出,现有的视觉Mamba方法把图像扫描成1D序列,无法利用图像中的结构信息。为此,提出了DefMamba模型,通过可变形扫描策略动态调整扫描路径,优先关注重要信息,解决了空间结构信息丢失问题,显著提升了图像分类、目标检测和分割等任务的性能。
模型整体框架如下图所示,是典型的VIT四阶段结构,核心创新点在 Deformable SSM 这里,本质是将 Deformable conv 引入了 Mamba。
Deformable SSM 的架构如下图所示,是典型的VMamba结构,不同的是除了普通的正向扫描和反向扫描,作者添加了一个Deformable扫描。和Deformable conv类似,使用一个网络学习 offset 和 bias。然后上面用 offset 计算像素的偏移;下面分支用bias给像素的 index 重新赋值,最后按照 index 值大小进行扫描,先扫重要的再扫不重要的。
该论文属于动态路径的Mamba,可视化路径就非常重要了。作者做了一个扫描路径的可视化实验。黄色到绿色代表扫描顺序。从图中第一行可以看出,作者模型先扫蛇的头部再扫其它部分,也说明作者模型能够优先学习图像中语义信息强的部分。
其它实验可以参考作者论文,这里不过多介绍。