当前位置：首页 > news >正文

CLIP CLAP

news 2025/7/5 12:02:09

文章目录

CLIP
- abstract
- intro
CLAP: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION
- abstract
- method

CLIP

open AI
2021.2
代码&预训练模型

abstract

原有的基于有监督数据训练的计算机分类任务，在面对新的分类目标时泛化性和可用性都会变差；
本文提出使用海量网络图文匹配的数据（400 millon），做预训练模型。和NLP中的GPT模型效果类似，1实现可以zero-shot的迁移到很多图像任务——在30多个图像数据集（比如OCR，视频动作识别以及细分的图像分类任务），都表现良好。比如对于ResNet-50 on ImageNet的分类任务，不需要训练数据达到精确度相当的结果。
CLIP, for Con- trastive Language-Image Pre-training

intro

受益于NLP大模型预训练的思路启发，是否能够利用海量的网络数据预训练模型，实现任务目标无关（task-agnoistic）的学习，从而更加适用于多样的下游任务。
之前的工作有做过描述图像内容的各种方法尝试，但是效果差于经典的方法。分析了之前的工作是在有限的标签数据以及海量的无限制文本两种方式学习的折衷。

CLAP: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION

abstract

Contrastive Language-Audio Pretraining (CLAP)：文本和audio使用两个单独的encoder，使用对比学习的训练策略，定义到同一个多模态的空间表征embedding，
128k的text-audio pair用于训练，每条audio被处理成5s的数据（～127h)，然后在16个下游任务中进行zero-shot以及finetune的对比

method

在这里插入图片描述

输入audio，text<1xL>
经过audio-encoder，将音频时间维度压缩，变成 $X_a$ ：,N是batch size；text encoder编码后输出 $X_t$ ：
分别经过线性变换，变成 $E_a$ 和 $E_t$
计算相似度矩阵

http://www.lryc.cn/news/33534.html

相关文章：

Debezium报错处理系列之五十二：解决Sql Server数据库安装后修改主机名导致sqlserver数据库实例名称没有修改从而无法设置CDC的问题

scratch老鹰捉小鸡电子学会图形化编程scratch等级考试二级真题和答案解析2022年12月

概率论小课堂：公理化过程（大数据方法解决问题的理论基础）

WOW64 IsWow64Process GetNativeSystemInfoWindows System32 SysWOW64

Spring Boot 3.0系列【10】核心特性篇之应用配置的高阶用法

Java int类型数值比较总结

Pyspark基础入门5_RDD的持久化方法

汽车娱乐系统解决方案

Go语言结构体，这一篇就够了

【python】各种排序算法代码大集合

K8S Pod健康检查

NFS服务器与CGI程序详解

可视化项目管理，控制项目进度，项目经理需要做好以下工作

海康工业相机使用教程

java开发手册之安全规约

python模块引入问题和解决方案_真方案不骗人

Read book Netty in action(Chapter X)--Unit Testing

Appium+Python连接真机、跳过登录页、Unexpected error while obtaining UI hierarchy问题

201809-3 CCF 元素选择器满分题解（超详细注释代码） + 解题思路（超详细）

证书拓展域（1）

浅谈ChatGPT 和对AI 的思考

NCRE计算机等级考试Python真题（十二）

Java并发类库提供的线程池有哪几种？分别有什么特点？

企业微信如何群发消息到客户群？

【信号与系统笔记】第一章绪论

[神经网络]DETR目标检测网络

【服务器管理】connection refused问题解决

2023_华为OD机试真题_Python_047_整理扑克牌

吐血整理，自动化测试pytest测试框架，资深测试带你少走弯路......