当前位置: 首页 > news >正文

论文阅读——GroupViT

GroupViT: Semantic Segmentation Emerges from Text Supervision

一、思想

把Transformer层分为多个组阶段grouping stages,每个stage通过自注意力机制学习一组tokens,然后使用学习到的组tokens通过分组模块Grouping Block融合相似的图片tokens。通过这种组级联,可以把图片中小分割块组成大块。

二、模型

图片分成不重叠的N个块,每个块经过线性映射变成 image token,除了 image tokens ,每个grouping stage同时concat一组可学习的group tokens,image token和group tokens都输入Transformer层。

Grouping Block的作用是把小块组合成大块,每个阶段都有该模块。

不是把所有的image token前向传播到所有Transformer层。

每个阶段经过GroupingBlock后得到的tokens数量越来越少,因为分割的区域越来越大,分割的数量越来越少。最后一层后,所有分割tokens经过Transformer层,输出平均池化,得到图片表示z。

然后用了一个hard assignment技巧,使得可微分,将每个分割token分配给一个组。然后同一组的所有token融合得到一个新的分割token:

双编码器结构,GroupViT是图片编码器,Transformer是文本编码器,最终GroupViT输出的图片向量是所有输出的分割token的平均向量。

三、损失函数

Image-Text Contrastive Loss:

Multi-Label Image-Text Contrastive Loss:

从GT文本中随机选出K个名词,然后用模版填充:“A photo of a {noun}”.

原始的文本图片对:

the new sets of image-“prompted text” pairs:

Zero-Shot Transfer to Semantic Segmentation

四、实验

部分细节:

ViT-S+12 Transformer layers+hidden dimension of 384

input images of size 224 × 224+patch size of 16 × 16

experiment with 1-stage and 2-stage architectures for GroupViT:

        1-stage:

        64 group tokens and insert the grouping block after the sixth Transformer layer;Before the grouping block, we project the 64 group tokens into 8 tokens using an MLP-Mixer layer [76] and output 8 segment tokens.

        2-stage:

        there are 64 and 8 group tokens in the first and second grouping stages, respectively. We insert grouping blocks after the sixth and ninth Transformer layers. We use a 2-layer MLP to project the visual and text embedding vectors into the same latent space.

Our batch size is 4096 with a learning rate initialized to 0.0016 and decayed via the cosine schedule. We use the Adam optimizer with a weight decay of 0.05. We train GroupVIT for 30 epochs with the 5 initial epochs containing linear warm-up. For the multi-label contrastive loss, we set K = 3. 

结果:

http://www.lryc.cn/news/260982.html

相关文章:

  • 时光机器:用rrweb打造可回溯的用户体验!
  • 不同的葡萄品种的葡萄酒有什么共同特质?
  • Visual Studio编辑器中C4996 ‘scanf‘: This function or variable may be unsafe.问题解决方案
  • C与C++编程语言的区别和联系
  • UE4 UMG 颜色字体和PS对应关系
  • EasyExcel处理表头的缓存设置
  • 数据挖掘任务一般流程
  • 人工智能计算机视觉:解析现状与未来趋势
  • 5.1 C++11强类型枚举
  • Android : BottomNavigation底部导航_简单应用
  • 基于ssm培训学校教学管理平台论文
  • 关于嵌入式开发的一些信息汇总:C标准、芯片架构、编译器、MISRA-C
  • java实现局域网内视频投屏播放(二)爬虫
  • a标签的target属性
  • 无mac在线申请hbuilderx打包ios证书的方法
  • [css] flex wrap 九宫格布局
  • 云上丝绸之路| 云轴科技ZStack成功实践精选(西北)
  • Java8 IfPresent 与 forEach 的组合操作
  • WebGL+Three.js入门与实战——给画布换颜色、绘制一个点、三维坐标系
  • SystemServer 进程启动过程
  • Java EE 多线程之 JUC
  • Unity光照模型实践
  • 从0创建并部署一个网页到服务器
  • Ubuntu 22.04 安装 OCI CLI
  • K8S的安装工具
  • vue中哪些数组的方法可以做到响应式
  • 软考科目如何选择?
  • 羊大师解读,血压波动
  • 关于充值!购买的流量卡第一次在哪充值?这个问题你想过吗?
  • HTML基础标签