当前位置: 首页 > news >正文

clip4clip:an empirical study of clip for end to end video clip retrieval

广告深度学习计算:阿里妈妈智能创意服务优化使用CPU/GPU分离的多进程架构,加速阿里妈妈智能创意服务。icon-default.png?t=N7T8https://mp.weixin.qq.com/s/_pjhXrUZVzFRtiwG2LhnkwCLIP4Clip: CLIP 再下一城,利用CLIP实现视频检索 - 知乎前言: OpenAI 的论文CLIP 可以说得上是一篇神作,利用对比学习进行图文预训练,在4亿数据集上进行预训练,预训练模型在多个任务上达到了sota,之前记录过关于CLIP的文章,这里放一下~ https://zhuanlan.zhihu.co…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/4431656201.introduction

clip4clip是在clip基础上构建的,并设计了一个相似度计算器来研究三种相似度计算方法。1.研究了基于预训练的clip的三种相似度计算机制;2.进一步在一个嘈杂的大规模视频-语言数据集上对clip进行预训练,以学习更好的检索空间。并且有一些结论:1.仅凭单个图像无法对视频进行编码而进行高效检索;2.clip4clip在大规模数据集上先进行预训练是必要的;3.借助预训练clip,对于小样本数据集最好不要引入新的参数,并采用平均池化处理视频,对于大数据集,最好引入更多参数。

2.related works

video encoder backbone. 2D或3D时空卷积或者基于transformer的网络。

visual representation learning from text supervision. clip、MIL-NCE、ClipBERT。

video-text retrieval. 

3.framework

给定一个视频集合V和一个字幕集合T,目标是学习一个函数s(v,t)来计算视频v∈V和t∈T之间的相似度,根据在文本到视频检索中的相似度分数对所有的视频进行排名,或者根据视频到文本检索中的查询视频对所有的字幕进行排名。本文中视频v∈V被表示为一系列帧,视频v有v个采样帧组成,直接将帧作为输入,包括一个文本编码器,一个视频编码器和一个相似度计算器。

3.1 video Encoder

从视频中提取帧,采用了CLIP的12层和32patch size的ViT-B/32的图像编码器作为视频编码器,使用Flattened Patches线性投影模块中研究了两种线性投影,分别为2D投影和3D投影,1.ViT flattened patches的线性投影叫2D投影,独立的嵌入每个2D帧块,忽略了帧与帧之间的时序关系,2.3D线性投影,将块嵌入到时间维度上,具体而言,3D线性使用了一个3D卷积核[txhxw]作为线性投影,而不是2D投影中的[hxw]卷积核,其中t,h,w分别是时间,高度和宽度。

3.2 Text encoder

直接应用CLIP中的文本编码器,12层,512维,有8个attention head。

3.3 Similarity calculator

得到视频表示和文本表示之后,关键是相似度计算。由于模型基于预训练的图文模型构建,因此在相似度计算时添加新的可学习权重,分为三类,parameter-free和sequential type都是采用两个分支来计算视频和文本表示的余弦相似度,tile采用transformer进行多模态交互,并且通过线性投影进一步计算相似度。parameter-free使用mean pooling聚合所有帧,得到一个平均帧;sequential type其中1.lstm,2.带位置嵌入的transformer后再计算mean-pooling;transformer编码将串联的标题表示和帧表示作为融合特征,再使用线性层进行相似性预测。

3.4 Training strategy

帧采样,每秒一帧。clip4clip在Howto100M数据上训练。

4.experiments

http://www.lryc.cn/news/232285.html

相关文章:

  • rocksdb中测试工具Benchmark.sh用法(基准、性能测试)
  • JS-项目实战-点击水果名修改特定水果库存记录
  • Redis渐进式rehash小疑问
  • C#winform门诊医生系统+sqlserver
  • 设计模式 -- 工厂模式(Factory Pattern)
  • 设计模式-08-适配器模式
  • 北邮22级信通院数电:Verilog-FPGA(9)第九周实验(4)实现寄存器74LS374
  • 【Android】带下划线的TextView
  • 图解未来:数据可视化引领智慧决策时代
  • 例解什么是Python装饰器
  • EtherCAT从站EEPROM组成信息详解(3):字16-63邮箱、EEPROM信息
  • 【文件读取/包含】任意文件读取漏洞 afr_1
  • (八)五种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB
  • 通义灵码,阿里巴巴的编程辅助工具
  • Uniapp导出的iOS应用上架详解
  • 计算机视觉基础(7)——相机基础
  • 解决Github上的README无法显示图片
  • qnx 工程目录创建工具 addvariant
  • 计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
  • 【AI视野·今日CV 计算机视觉论文速览 第278期】Mon, 30 Oct 2023
  • 深度学习:多模态与跨模态
  • 大数据Hadoop之——部署hadoop+hive+Mysql环境(Linux)
  • Python与ArcGIS系列(四)在地图文档中加入图层
  • QT 程序异常崩溃
  • Ubuntu20.04 通过nmcli命令查看网卡状态为unmanaged
  • 【R Error系列】r - fatal error : RcppEigen. h:没有这样的文件或目录
  • 如何在聊天记录中实时查找大量的微信群二维码
  • 03-CSS基础选择器
  • 【ROS】RViz2源码分析(二):main函数及编译配置详解
  • Vue.js的生命周期钩子