当前位置：首页 > news >正文

(cvpr2025) DefMamba: Deformable Visual State Space Model

news 2025/8/31 2:01:11

论文：(cvpr2025) DefMamba: Deformable Visual State Space Model

代码：https://github.com/leiyeliu/DefMamba

作者指出，现有的视觉Mamba方法把图像扫描成1D序列，无法利用图像中的结构信息。为此，提出了DefMamba模型，通过可变形扫描策略动态调整扫描路径，优先关注重要信息，解决了空间结构信息丢失问题，显著提升了图像分类、目标检测和分割等任务的性能。

模型整体框架如下图所示，是典型的VIT四阶段结构，核心创新点在 Deformable SSM 这里，本质是将 Deformable conv 引入了 Mamba。

Deformable SSM 的架构如下图所示，是典型的VMamba结构，不同的是除了普通的正向扫描和反向扫描，作者添加了一个Deformable扫描。和Deformable conv类似，使用一个网络学习 offset 和 bias。然后上面用 offset 计算像素的偏移；下面分支用bias给像素的 index 重新赋值，最后按照 index 值大小进行扫描，先扫重要的再扫不重要的。

该论文属于动态路径的Mamba，可视化路径就非常重要了。作者做了一个扫描路径的可视化实验。黄色到绿色代表扫描顺序。从图中第一行可以看出，作者模型先扫蛇的头部再扫其它部分，也说明作者模型能够优先学习图像中语义信息强的部分。

其它实验可以参考作者论文，这里不过多介绍。

http://www.lryc.cn/news/574355.html

相关文章：

github常用插件

Java编程中的设计模式：单例模式的深度剖析

EEG分类攻略2-Welch 周期图

Python 数据分析与可视化 Day 5 - 数据可视化入门（Matplotlib Seaborn）

Spring Boot使用MCP服务器

Flask框架index.html里引用的本地的js和css或者图片

EEG分类 - Theta 频带 power

C++ Vector 基础入门操作

QML革命：下一代GUI开发的核心优势详解

论文笔记：Answering POI-Recommendation Questions using TourismReviews

单片机——浮点数转换4位数码管显示

【笔记】在Cygwin上使用mintty连接wsl

1.2、CAN总线帧格式

Apache SeaTunnel Flink引擎执行流程源码分析

DeepSeek今天喝什么随机奶茶推荐器

如何利用Charles抓包工具提升API调试与性能优化

组件化设计核心：接口与实现分离（C++）

拼团系统多层限流架构详解

《去哪儿网Redis高并发实战：从问题定位到架构升级》

边缘-云协同智能视觉系统：实时计算与云端智能的融合架构

C++的前世今生-C++11

《哈希表》K倍区间（解题报告）

go channel用法

【android bluetooth 框架分析 04】【bt-framework 层详解 8】【DeviceProperties介绍】

Netty内存池分层设计架构

【大厂机试题解法笔记】高效货运

互联网大数据求职面试：从Zookeeper到Flink的技术探讨

跨越十年的C++演进：C++11新特性全解析

TCP客户端发送消息失败（NetAssist做客户端）

【C++】第十二节——详解list（上）—（list的介绍和使用、模拟实现）