当前位置: 首页 > news >正文

clip系列改进Lseg、 group ViT、ViLD、Glip

Lseg

在这里插入图片描述
在clip后面加一个分割head,然后用分割数据集有监督训练。textencoder使用clip,frozen住。

group ViT

在这里插入图片描述
与Lseg不同,借鉴了clip做了真正的无监督学习。
具体的通过group block来做的。使用学习的N个group token(可以理解为聚类中心数量)与图像做attention。分别加入两次。一个为64个,一次为8个(粗聚类->精聚类),最后pooling后与文本做对比学习。
结果发现分割已经做的很好了。分类结果还差一些。

ViLD

在这里插入图片描述
clip+目标检测
对N个proposal与text(open 类别)分别提特征,然后计算相似度。
然后额外增加一个分支,对M个proposal的图片(N里面取topM)使用clip的Image encoder提特征,与目标检测的图片特征做知识蒸馏。

Glip

在这里插入图片描述
统一了检测和grounding(类似VQA),又使用了伪标签,引入了非常多的图像文本对,用于预训练,效果非常好。
具体做法和clip很像,文本分支,和图像分支算距离,然后求alignment loss(相当于分类分支),再加一个定位loss。
然后加入了一个文本图像的融合模块(使用cross-attention),整个框架和ViLD-text很像。

http://www.lryc.cn/news/384888.html

相关文章:

  • Ubuntu下TensorRT与trtexec工具的安装
  • MySQL定时任务
  • Pandas实用Excel数据汇总
  • 【计算机网络】[第4章 网络层][自用]
  • Unity3D Entity_CacheService实现详解
  • DLMS/COSEM协议—(Green-Book)Gateway protocol
  • Android高级面试_12_项目经验梳理
  • 【项目实训】解决前后端跨域问题
  • Java反射API详解与应用场景
  • 【例子】webpack 开发一个可以加载 markdown 文件的加载器 loader 案例
  • 揭秘!这款电路设计工具让学校师生都爱不释手——SmartEDA的魔力何在?
  • onlyoffice实现打开文档的功能
  • 基于 SpringBoot + Vue 的图书购物商城项目
  • 如何使用kimi智能助手:您的智能生活小助手
  • sql操作
  • 开关电源调试记录-基于DK112(DK1203也一样)作为开关主控芯片的开关电源
  • 【自然语言处理】GPT-5技术突破预测:引领自然语言处理革新的里程碑
  • qt基本窗口类(QWidget,QDialog,QMainWindow)
  • 最新收录历年地震数据,含时间、位置、类型、震级等信息
  • C++ 串口读写
  • WebRTC系列实战-自定义RTP中的extension
  • std::function和std::bind函数
  • 补码的理解,想明白了觉得还挺有趣的
  • FuTalk设计周刊-Vol.027
  • 抖音外卖服务商有哪些,盘点这几家正规服务商!
  • sh脚本模块笔记
  • 关于服务器的一些知识
  • 力扣-和为K的子数组
  • 写一个坏越个人天地(五)
  • 步步精科技诚邀您参加2024慕尼黑上海电子展