当前位置: 首页 > news >正文

论文阅读——MP-Former

MP-Former: Mask-Piloted Transformer for Image Segmentation

https://arxiv.org/abs/2303.07336

mask2former问题是:相邻层得到的掩码不连续,差别很大

denoising training非常有效地稳定训练时期之间的二分匹配。去噪训练的关键思想是将带噪声的GT坐标与可学习查询并行地送到Transformer解码器中,并训练模型去噪和恢复GT边框坐标。MPFormer去噪训练的思想从DN-DETR来,改进的mask2former模型。

MPformer送入class embeddings作为查询,给每层解码层送入GT masks作为attention masks,然后让模型重建类别和masks。

mask2former提出的mask attention可以使得训练时容易收敛。作者发现使得Vit类模型容易收敛的一些常识为给可学习的查询明确的意义,减少不确定性;二是给交叉注意力局部限制,更好的找到目标。因此作者认为给交叉注意力明确的导向可以提高分割性能。和DN-DETR不同,MPformer噪声可选择,可以没有。

作者把mask2former看做一个掩码不断精细化的过程,一层的预测作为下一层的attention masks。

MPformer是每层将GTmask作为attention masks,由于每层大小不一样,所以把GT使用双线性插值到不同分辨率。

加噪声的三种方式:

点噪声表现最好,所以用的点噪声。

Label-guided training:class embeddings会对应一个classification loss,class embeddings加噪声。

两种噪声,类别和掩码噪声的比例给的是0.2。

辅助函数:

结果

http://www.lryc.cn/news/297408.html

相关文章:

  • JPEG图像的压缩标准(1)
  • 数解 transformer 之 self attention transformer 公式整理
  • ubuntu22.04@laptop OpenCV Get Started
  • 【Java】苍穹外卖 Day01
  • Ivanti Pulse Connect Secure VPN SSRF(CVE-2023-46805)漏洞
  • GPT-4:比ChatGPT3.5好得多,但它有多好你知道么?
  • 测试:JMeter如何获取非json格式的响应参数
  • 2024年刘谦魔术大揭秘,其中竟用到了约瑟夫环?
  • openssl3.2 - update debian12‘s default openssl to openssl3.2
  • VUE2和VUE3区别对比一览
  • Linux - updatedb 命令
  • 云计算市场分析
  • 前端JavaScript篇之call() 和 apply() 的区别?
  • Java设计模式大全:23种常见的设计模式详解(三)
  • 汇编语言程序设计(二)十六位汇编框架、子程序与堆栈
  • K8S之标签的介绍和使用
  • 网络请求库axios
  • 程序设计语言的组成
  • 论文精读的markdown模板——以及用obsidian阅读网页资料做笔记
  • LCP 30. 魔塔游戏
  • RCE(命令执行)知识点总结最详细
  • [英语学习][27][Word Power Made Easy]的精读与翻译优化
  • Jupyter Notebook如何在E盘打开
  • 显示器校准软件:BetterDisplay Pro for Mac v2.0.11激活版下载
  • 【第六天】c++虚函数多态
  • CGAL::2D Arrangements-3
  • 机器学习--K近邻算法,以及python中通过Scikit-learn库实现K近邻算法API使用技巧
  • Redis 使用 RDB 持久化方式的过程
  • 仰暮计划|“我非常感谢党的领导,作为一名普通百姓,我也愿意为国家的发展继续贡献微薄的力量”
  • 【思科ssh】思科模拟器配置ssh登录