当前位置: 首页 > news >正文

(cvpr2025) DefMamba: Deformable Visual State Space Model

论文:(cvpr2025) DefMamba: Deformable Visual State Space Model

代码:https://github.com/leiyeliu/DefMamba

作者指出,现有的视觉Mamba方法把图像扫描成1D序列,无法利用图像中的结构信息。为此,提出了DefMamba模型,通过可变形扫描策略动态调整扫描路径,优先关注重要信息,解决了空间结构信息丢失问题,显著提升了图像分类、目标检测和分割等任务的性能。

模型整体框架如下图所示,是典型的VIT四阶段结构,核心创新点在 Deformable SSM 这里,本质是将 Deformable conv 引入了 Mamba。

Deformable SSM 的架构如下图所示,是典型的VMamba结构,不同的是除了普通的正向扫描和反向扫描,作者添加了一个Deformable扫描。和Deformable conv类似,使用一个网络学习 offset 和 bias。然后上面用 offset 计算像素的偏移;下面分支用bias给像素的 index 重新赋值,最后按照 index 值大小进行扫描,先扫重要的再扫不重要的。

该论文属于动态路径的Mamba,可视化路径就非常重要了。作者做了一个扫描路径的可视化实验。黄色到绿色代表扫描顺序。从图中第一行可以看出,作者模型先扫蛇的头部再扫其它部分,也说明作者模型能够优先学习图像中语义信息强的部分。

其它实验可以参考作者论文,这里不过多介绍。

http://www.lryc.cn/news/574355.html

相关文章:

  • github常用插件
  • Java编程中的设计模式:单例模式的深度剖析
  • EEG分类攻略2-Welch 周期图
  • Python 数据分析与可视化 Day 5 - 数据可视化入门(Matplotlib Seaborn)
  • Spring Boot使用MCP服务器
  • Flask框架index.html里引用的本地的js和css或者图片
  • EEG分类 - Theta 频带 power
  • C++ Vector 基础入门操作
  • QML革命:下一代GUI开发的核心优势详解
  • 论文笔记:Answering POI-Recommendation Questions using TourismReviews
  • 单片机——浮点数转换4位数码管显示
  • 【笔记】在Cygwin上使用mintty连接wsl
  • 1.2、CAN总线帧格式
  • Apache SeaTunnel Flink引擎执行流程源码分析
  • DeepSeek今天喝什么随机奶茶推荐器
  • 如何利用Charles抓包工具提升API调试与性能优化
  • 组件化设计核心:接口与实现分离(C++)
  • 拼团系统多层限流架构详解
  • 《去哪儿网Redis高并发实战:从问题定位到架构升级》
  • 边缘-云协同智能视觉系统:实时计算与云端智能的融合架构
  • C++的前世今生-C++11
  • 《哈希表》K倍区间(解题报告)
  • go channel用法
  • 【android bluetooth 框架分析 04】【bt-framework 层详解 8】【DeviceProperties介绍】
  • Netty内存池分层设计架构
  • 【大厂机试题解法笔记】高效货运
  • 互联网大数据求职面试:从Zookeeper到Flink的技术探讨
  • 跨越十年的C++演进:C++11新特性全解析
  • TCP客户端发送消息失败(NetAssist做客户端)
  • 【C++】第十二节——详解list(上)—(list的介绍和使用、模拟实现)