当前位置: 首页 > news >正文

Flamingo

基于已有的图像模型和文本模型构建多模态模型。输入是图像、视频和文本,输出是文本。

Vision encoder来自预训练的NormalizerFree ResNet (NFNet),之后经过图文对比损失学习。图片经过图像模型的输出是2D grid,视频按1FPS的频率采样后经过图像模型的输出是3D grid,都展开成1D送入Perceiver Resampler。

Perceiver Resampler将变长的图片或者视频的特征变成固定长度。结构如下图:

通过gated cross-attention dense模块结合图像特征和文本特征。gated cross-attention dense模块使用了tanh-gating机制,用tanh(a)乘以文本和图像模态cross-attention后的输出,a初始化为0。tanh-gating机制保证初始化的时候,模型不受图像特征的影响,输出就是语言模型的输出。

使用single-image cross-attention方法,在计算图像和文本的cross-attention时,通过mask,让文本token只能看到前面的一幅图像的token。

 

训练数据数据集包括公开数据和自建数据。M3W(43 million webpages)、ALIGN dataset(1.8 billion images with alt-text 43 million webpages)、312 million image and text pairs、27 million short videos and text pairs。

http://www.lryc.cn/news/115600.html

相关文章:

  • Leetcode-每日一题【剑指 Offer 12. 矩阵中的路径】
  • 安全渗透知识总结二
  • 【线程】wait()+notifyAll()实现多个线程交替遍历,输出ABCABC
  • MyBatis 缓存机制复习及项目中的应用经历
  • 匈牙利算法详解
  • script的三种加载模式
  • mongo 中两张表联合查询
  • 【Linux】多路转接 -- epoll
  • 学会RabbitMQ的延迟队列,提高消息处理效率
  • ChatGPT会取代搜索引擎吗?BingChat、GoogleBard与ChatGPT区别
  • 多个QLabel中文字左右对其问题研究
  • 链式二叉树统计结点个数的方法和bug
  • C语言-报错集锦-03-malloc(): memory corruption: 0x0000000001496d90 ***
  • 现代C++中的从头开始深度学习:【5/8】卷积
  • 以太网帧格式与吞吐量计算
  • vue中install方法
  • Flutter:文件读取—— video_player、chewie、image_picker、file_picker
  • vim的使用
  • 马氏杆法检查斜视
  • Mac电脑怎么使用“磁盘工具”修复磁盘
  • c++画出分割图像,水平线和垂直线
  • Python 程序设计入门(015)—— enumerate() 函数的用法
  • __dict__属性
  • k8s之Pod控制器
  • 逆元(求乘法逆元的几种方法)
  • 没点本事,还真做不好数字化转型
  • windows 10 远程桌面配置
  • OpenStreetMap 上基于A*搜索算法的C ++路线规划项目
  • java实现随机生成验证码
  • Positive证书是什么?