当前位置: 首页 > news >正文

深度学习·MAFT

MAFT

  • two stage zero shot 语义分割的改进方法
    在这里插入图片描述

*两阶段zero shot方法回顾

  • 一个提议器生成提议区域,与原图像叠加起来。然后输入到CLIP的图像encoder部分,得到class token,与每一个文本类别的class token进行相似度计算,取最高值。
    在这里插入图片描述

动机

+ 实验:对不同的提议,冻结的CLIP产生相似的预测结果

在这里插入图片描述

方法

在这里插入图片描述

IP-CLIP encoder

动机

IP-CLIP Encoder aims to process arbitrary numbers of images and mask proposals simultaneously.

效率上:为每个图片叠加提议生成多个子图像,并使用子图像分类效率低下,本文提出了一种同时处理多个提议的方法。
性能上:子图像之外的区域都为0,导致损失了全局信息。所以也要考虑使用提议时,保留原本的全局信息

设计

  • 前L层正常的注意力机制,与CLIP完全一致(1+hw,d),保留全局特征
  • 后12-L层,class token复制N遍,设计一个注意力掩码,N个class token与对应的提议区域进行注意力操作,保留局部特征,N是提议区域的数量
  • 掩码大小:(N,N+hw)

在这里插入图片描述
在这里插入图片描述

损失函数

动机

  • CLIP的分类结果与提议区域的质量有关
  • 为了强制将分类概率和提取区域的质量对齐,引入了以下损失。
    在这里插入图片描述

动机2

为了微调带来的严重过拟合问题,引入以下损失

2

http://www.lryc.cn/news/614149.html

相关文章:

  • Linux中的内核同步源码相关总结
  • 2025华数杯数学建模A题【 多孔膜光反射性能的优化与控制】原创论文分享
  • 提升LLM服务效率的秘密武器——vLLM!
  • 【MongoDB学习笔记2】MongoDB的索引介绍
  • [GESP202309 五级] 2023年9月GESP C++五级上机题题解,附带讲解视频!
  • 【具身智能】具身智能的革命——人形机器人如何重塑人类日常生活
  • VIOO IQOO7手机 解锁BL ROOT教程
  • Effective C++ 条款30:透彻了解inlining的里里外外
  • 安装CST时,报错问题处理
  • Suno AI 完全上手教程:从文字到音乐,打造自己专属音乐
  • Qwen Agent 入门介绍与简单使用示例
  • 用不均匀硬币实现公平决策
  • 【Bellman负环】Cycle Finding
  • 遥测自跟踪天线系统组成、特点、功能、工作流程
  • 降低程序运行时CPU和GPU峰值占用的技术方案
  • ADB 命令执行模块开发:双模式(普通模式Shell交互模式)实现、线程安全与资源管理优化
  • 机器学习——支持向量机(SVM)实战案例
  • Android 中解决 Button 按钮背景色设置无效的问题
  • BGP笔记及综合实验
  • 如何在simulink中双击一个模块弹出一个exe?
  • 三防平板+天通卫星电话,打通无人之境的通信经脉
  • 前端开发:JavaScript(7)—— Web API
  • 从手工到智能决策,ERP让制造外贸企业告别“数据孤岛“降本增效
  • 生产管理ERP系统|物联及生产管理ERP系统|基于SprinBoot+vue的制造装备物联及生产管理ERP系统设计与实现(源码+数据库+文档)
  • Selenium + Python + Pytest + Yaml + POM
  • ISL9V3040D3ST-F085C一款安森美 ON生产的汽车点火IGBT模块,绝缘栅双极型晶体管ISL9V3040D3ST汽车点火电路中的线圈驱动器
  • 【量子计算】量子计算驱动AI跃迁:2025年算法革命的曙光
  • 行业速览:中国新能源汽车市场格局与关键趋势
  • 时序数据库-涛思数据库
  • 实现一个进程池(精讲)