当前位置：首页 > news >正文

深度学习·MAFT

news 2025/8/9 8:12:15

MAFT

two stage zero shot 语义分割的改进方法

*两阶段zero shot方法回顾

一个提议器生成提议区域，与原图像叠加起来。然后输入到CLIP的图像encoder部分，得到class token,与每一个文本类别的class token进行相似度计算，取最高值。

动机

＋　实验：对不同的提议，冻结的CLIP会产生相似的预测结果

在这里插入图片描述

方法

在这里插入图片描述

IP-CLIP encoder

动机

IP-CLIP Encoder aims to process arbitrary numbers of images and mask proposals simultaneously.

效率上：为每个图片叠加提议生成多个子图像，并使用子图像分类效率低下，本文提出了一种同时处理多个提议的方法。
性能上：子图像之外的区域都为0,导致损失了全局信息。所以也要考虑使用提议时，保留原本的全局信息

设计

前L层正常的注意力机制，与CLIP完全一致(1+hw,d)，保留全局特征
后12-L层，class token复制N遍,设计一个注意力掩码，N个class token与对应的提议区域进行注意力操作，保留局部特征，N是提议区域的数量
掩码大小：(N,N+hw)

在这里插入图片描述

损失函数

动机

CLIP的分类结果与提议区域的质量有关
为了强制将分类概率和提取区域的质量对齐，引入了以下损失。

动机2

为了微调带来的严重过拟合问题，引入以下损失

查看全文

http://www.lryc.cn/news/614149.html

Linux中的内核同步源码相关总结

2025华数杯数学建模A题【多孔膜光反射性能的优化与控制】原创论文分享

提升LLM服务效率的秘密武器——vLLM！

【MongoDB学习笔记2】MongoDB的索引介绍

[GESP202309 五级] 2023年9月GESP C++五级上机题题解，附带讲解视频！

【具身智能】具身智能的革命——人形机器人如何重塑人类日常生活

VIOO IQOO7手机解锁BL ROOT教程

Effective C++ 条款30：透彻了解inlining的里里外外

安装CST时，报错问题处理

Suno AI 完全上手教程：从文字到音乐，打造自己专属音乐

Qwen Agent 入门介绍与简单使用示例

用不均匀硬币实现公平决策

【Bellman负环】Cycle Finding

遥测自跟踪天线系统组成、特点、功能、工作流程

降低程序运行时CPU和GPU峰值占用的技术方案

ADB 命令执行模块开发：双模式（普通模式Shell交互模式）实现、线程安全与资源管理优化

机器学习——支持向量机（SVM）实战案例

Android 中解决 Button 按钮背景色设置无效的问题

BGP笔记及综合实验

如何在simulink中双击一个模块弹出一个exe？

三防平板+天通卫星电话，打通无人之境的通信经脉

前端开发：JavaScript（7）—— Web API

从手工到智能决策，ERP让制造外贸企业告别“数据孤岛“降本增效

生产管理ERP系统|物联及生产管理ERP系统|基于SprinBoot+vue的制造装备物联及生产管理ERP系统设计与实现(源码+数据库+文档)

Selenium + Python + Pytest + Yaml + POM

ISL9V3040D3ST-F085C一款安森美 ON生产的汽车点火IGBT模块，绝缘栅双极型晶体管ISL9V3040D3ST汽车点火电路中的线圈驱动器

【量子计算】量子计算驱动AI跃迁：2025年算法革命的曙光

行业速览：中国新能源汽车市场格局与关键趋势

时序数据库-涛思数据库

实现一个进程池（精讲）

MAFT

*两阶段zero shot方法回顾

动机

方法

IP-CLIP encoder

动机

设计

损失函数

动机

动机2

相关文章：