当前位置: 首页 > news >正文

ViLT 浅析

ViLT 浅析

论文链接:ViLT

文章目录

  • ViLT 浅析
    • 创新点
    • 网络结构
    • 总结

创新点

本文先分析了4种不同类型的Vision-and-Language Pretraining(VLP)

img

其中每个矩形的高表示相对计算量大小,VE、TE和MI分别是visual embedding、text embedding和modality interaction的简写。

根据上述划分原则

  • VSE、VSE++和SCAN属于(a)类型。对图像和文本独立使用encoder,图像的相对复杂,文本的相对简单,使用简单的点积或者浅层attention层来表示两种模态特征的相似性。
  • CLIP属于(b)类型。每个模态单独使用重的transformer encoder,使用池化后的图像特征点积计算特征相似性。
  • ViLBERT、UNTER和Pixel-BERT属于©类型。这些方法使用更深的transformer进行模态融合,但是由于VE仍然使用相对复杂的卷积网络进行特征抽取,导致计算量依然很大。
  • 而作者提出的ViLT模型属于d类,ViLT是首个将VE设计的如TE一样轻量的方法,该方法的主要计算量都集中在模态交互上。

img

文本一般使用transformer的线性嵌入,而以前的图像特征则采用CNN提取相关特征,而作者提出了采用一个线性嵌入来提出特征

网络结构

img

对于图像特征的提取作者采用了类似ViT一样的Patch Embedding结构,首先将图片划分为一小个的Patch并输入到线性投影层,而对于文本特征的提取作者采用了对完整的单词进行mask的方式。然后对于提取到的特征分别进行位置编码添加其位置信息,然后进行模态编码其中使用0表示文本特征,1表示图像特征,同时给文本与图像特征添加一个额外的可学习[class] embedding,方便和下游任务对接,最后两个特征进行拼接,并输入到transformer编码器中。

  • ImageText Matching:用来判断图像文本是否匹配
  • Masked Language Modeling:预测被掩盖的单词
  • word patch alignment:计算teextual subset和visual subset的对齐分数

总结

文章主要受到了ViT的影响设计一个Patch Embedding结构将图像特征序列化,并与文本特征进行模态融合。

采用Patch Embedding结构使得整个模型训练大幅度加快,同时在许多任务上保持着较高的准确率。

img

img

img

img

http://www.lryc.cn/news/346672.html

相关文章:

  • 7-117 死亡隧道
  • java数据结构与算法(链表归并排序)
  • 最新网页版USB转串口芯片CH340中文规格书手册(20240511)
  • 关于 MongoDB 数据库基本操作的详细介绍
  • 【网络基础】网络层 之 IP协议与分片、网段划分、IP地址分类、子网掩码与路由
  • C语言实现猜数字小游戏
  • iOS Failed to create provisioning profile.
  • 122. Kafka问题与解决实践
  • Pytorch常用的函数(九)torch.gather()用法
  • 用爬虫解决问题
  • 机器学习-有监督学习
  • 【详细介绍下Visual Studio】
  • 【Golang】实现 Excel 文件下载功能
  • 设计模式2——原则篇:依赖倒转原则、单一职责原则、合成|聚合复用原则、开放-封闭原则、迪米特法则、里氏代换原则
  • 深入探讨布隆过滤器算法:高效的数据查找与去重工具
  • 基于STC12C5A60S2系列1T 8051单片机实现一主单片机与一从单片机进行双向串口通信功能
  • ubuntu18.04安装docker容器
  • 202212青少年软件编程(Python)等级考试试卷(二级)
  • 单播、组播、广播
  • 吴恩达深度学习笔记:深度学习的 实践层面 (Practical aspects of Deep Learning)1.13-1.14
  • 笔试强训未触及题目(个人向)
  • 【YOLO改进】换遍MMDET主干网络之EfficientNet(基于MMYOLO)
  • uniapp下拉选择组件
  • 高斯数据库创建函数的语法
  • 【.NET Core】你认识Attribute之CallerMemberName、CallerFilePath、CallerLineNumber三兄弟
  • ubuntu删除opencv
  • K8s源码分析(二)-K8s调度队列介绍
  • OpenGL ES 面试高频知识点(二)
  • 2024第十六届“中国电机工程学会杯”数学建模A题B题思路分析
  • 面向对象的三大特性:封装、继承、多态