当前位置: 首页 > news >正文

CLIP:连接文本-图像

Contrastive Language-Image Pre-Training
在这里插入图片描述

  • CLIP的主要目标是通过对比学习,学习匹配图像和文本
  • CLIP最主要的作用:可以将文本和图像表征映射到同一个表示空间

这是通过训练模型来预测哪个图像属于给定的文本,反之亦然。在训练过程中,模型学会了将图像和文本编码成统一的向量空间,这使得它能够在语言和视觉上理解它们之间的关系。

通过训练模型来预测哪个图像属于给定的文本,反之亦然。在训练过程中,模型学会了将图像和文本编码成统一的向量空间,这使得它能够在语言和视觉上理解它们之间的关系。

CLIP可以识别图像中的物体、场景、动作等元素,同时也能够理解与图像相关的文本,例如标签、描述、标题等。CLIP已被证明在视觉和语言任务上具有出色的表现。

数据输入:text-image pairs
在这里插入图片描述
在这里插入图片描述
定义
论文中采用的两种文本编码器:CBOW或者Text Transformer(BERT family model)
论文中采用的两种图像编码器:ResNet和Vision Transformer (ViT)
定义了两个投影矩阵W_i和W_t,用于将文本及图像特征映射到相同维度大小。
temperature参数用于控制softmax后的结果,temperature < 1 时模型倾向于给出更加极端的预测值(more confidence),temperture > 1 的时候模型预测值在更接近0.5 (less confidence)
step 1 : 编码
通过图像&文本编码器,得分图像和文本特征。
step2 : 投影
首先通过投影矩阵将图像及文本特征映射到相同的维度大小,在进行L2 normalization (使得之后的点积操作直接等效于cosine similarity)
step3: 相似度计算
点积运算计算文本-图像的cosine similarity,得到 n x n 矩阵的logits(模型预测),越接近1则说明模型预测该文本-图像对是配对的,否则不配对。
step4: 计算loss
已知 logits 矩阵对角线的文本和图像是配对的,非对角线元素不配对,因此构造训练标签 np.arange(n),然后分别在图像维度(axis=0) 和文本维度(axis=1)计算loss。
以图像维度为例简单说明一下这里的逻辑,因为在计算相似度的时候,图像特征矩阵@文本特征矩阵得到的 n x n 矩阵,第一个n 代表的图像,因此我们在axis=0 计算图像维度的loss。

在这里插入图片描述

http://www.lryc.cn/news/151648.html

相关文章:

  • MFC网络编程简单例程
  • 云原生简介 (Cloud Native)
  • 【SpringBoot系列】 测试框架之@SpringBootTest的使用
  • 【数据结构与算法篇】手撕八大排序算法之交换排序
  • ArcGIS Pro实践技术应用、制图、空间分析、影像分析、三维建模、空间统计分析与建模、python融合
  • uniapp 项目实践总结(一)uniapp 框架知识总结
  • Oracle查看与修改隐藏参数
  • 基于MQTT协议的物联网网关实现远程数据采集及监控
  • 服务内部错误: stderr: bash: docker-compose: 未找到命令
  • 自然语言处理(六):词的相似性和类比任务
  • 安防监控视频平台EasyCVR视频汇聚平台定制项目增加AI智能算法详细介绍
  • VB个人邮件处理系统设计与实现
  • 第一章辩证唯物论,考点七思维导图
  • Python入门教程 - 基本函数(四)
  • [PyTorch][chapter 53][Auto Encoder 实战]
  • Springboot常用方法参数注解及示例
  • 基于java+springboot+vue的交流互动系统-lw
  • 使用candump+grep查看CAN报文
  • Vue中el-table表格的拖拽排序
  • 配置环境变量的作用
  • Mysql的page,索引,Explain Type等基本常识
  • 【业务功能篇95】web中的重定向与转发
  • IP对讲终端SV-6005带一路2×15W或1*30W立体声做广播使用
  • ES6 新特性
  • grafana用lark发告警python3接口
  • Java 中数据结构HashSet的用法
  • vue3下的密码输入框(antdesignvue)
  • 鸿鹄企业工程项目管理系统 Spring Cloud+Spring Boot+前后端分离构建工程项目管理系统源代码
  • 【爬虫】5.5 Selenium 爬取Ajax网页数据
  • thinkphp6 入门(3)--获取GET、POST请求的参数值