当前位置：首页 > news >正文

机器学习笔记 - 使用CLIP在没有数据的情况下创建图像分类器

news 2025/8/27 3:10:05

想象一下，如果我们现在需要对人们是否戴眼镜进行分类，但您没有数据或资源来训练自定义模型。该怎么办？这里我们了解如何使用预先训练的 CLIP 模型来创建自定义分类器，而无需任何培训。这种方法称为零样本图像分类，它可以对原始 CLIP 模型训练期间未明确看到的类别图像进行分类。

一、CLIP理论背景

CLIP（对比语言-图像预训练）模型由OpenAI开发，是一种多模态视觉和语言模型。它将图像和文本描述映射到相同的潜在空间，从而允许它确定图像和描述是否匹配。CLIP 采用对比方式进行训练，以预测哪些字幕对应于来自互联网的超过 4 亿个图像文本对的数据集中的哪些图像。令人难以置信的是，由预训练的 CLIP 生成的分类器被证明可以实现与监督模型基线竞争的结果，这里我们将利用这个预训练的模型来生成眼镜检测器。

CLIP 模型由图像编码器和文本编码器组成（下图）。在训练期间，通过图像编码器（ResNet 变体或 ViT）处理一批图像以获得图像表示张量（嵌入）。同时，它们对应的描述通过文本编码器（Transformer）进行处理，得到文本嵌入。CLIP 模型经过训练可以预

查看全文

http://www.lryc.cn/news/113816.html