当前位置：首页 > news >正文

EI-CLIP 深度理解 PPT

news 2025/8/18 6:48:17

系列文章目录

文章目录

在这里插入图片描述
在电子商务产品的跨模态检索中，电子商务图像和电子商务语言都有许多独特的特点。如图所示，一个电子商务产品图片通常只包含一个简单的场景，有一个或两个前景物体和一个普通的背景。同时，电子商务语言通常由一组元数据（标签实体)组成，包括产品名称/描述、品牌、类别、成分等。之前的工作,如FashionBERT 表明，时尚领域的跨模态检索需要更细粒度的特征,比如如短袖和圆领。
在这里插入图片描述
在电子商务中，单词标记经常会产生特殊的含义，而[10，38，72]中的预训练语言模型部分尽管有大规模的预训练语料库，但仍有偏见。例如，在预训练的CLIP模型中，实体“diesel”与概念“fuel”紧密相关，而在电子商务时尚领域中，“diesel”被标记为品牌实体。其他例子包括“canada goose（品牌）“、“golden goose（品牌）”、“top（类别）"等
在这里插入图片描述
介绍一下因果学习，和分布外的问题，根据应用场景的不同Causal learning 的最终目的是不同的，其中一个比较重要的目的就是想解决Machine learning的Out-of-Distribution Generalization（OODG）的问题。假设我们想分类骆驼和奶牛的图片, ，我们获得的图片中大概率是下图的情形。
。比如我们的训练数据中，骆驼大多数出现在沙化的土地（背景偏黄），奶牛大多数出现在长有植被的土地（背景偏绿）。这样一来，由于背景往往占据图片的主要内容，我们的模型学到的很可能是背景相关的特征，比如背景颜色，然后使用背景颜色对图片进行分类。即使我们在训练集上得到比较好的效果，但是如果测试集的分布和训练集不一样，那就出问题了。也就是说，如果新的测试集也是骆驼大多数背景偏黄，奶牛大多数背景偏绿，那么我们的模型可能还是会有比较好的表现。但如果不是这种情形，而是下图中的情形，那么模型很可能表现很糟糕

在这里插入图片描述
上图中，我们可以看到骆驼出现在了绿化草地，而奶牛出现在了沙化草地，这种情形在现实生活中还是可能存在的。如果我们新的数据中这种类型的图片较多（数据分布和之前的不同），而我们之前的模型又是根据背景色进行预测，可想而知预测结果肯定不好。更有甚者，我们可以随意的进行PS，把背景换成任意的形式，比如下图中的情形。
在这里插入图片描述介绍一下混杂因素，或者叫干扰因子。多模态微调中存在分布外问题,Zhang等人将图像和语言之间的这种不受欢迎的虚假相关性表述为从预训练数据集学习的“混杂因素”。Zhang等人通过使用结构因果模型（SCM）图建模，通过后门干预进行硬干预以消除数据集偏倚。在SCM图中，每个节点代表一个变量，有向边表示因果影响。例如，如果变量 AA 影响变量 BB，则会有一条从 AA 到 BB 的有向边。也就是说他们通过硬干预：也就是主动改变模型中某个变量的值，以观察其对其他变量的影响，来得出结论这个变量是不是真正的因，然后消除数据集偏倚，使得模型泛化能力强，数据集偏差就指训练数据未能准确代表目标人群或模型应用时的条件。这可能导致模型的泛化能力差和预测偏差。

在这里插入图片描述
Zhang等人的缺点：遵循传统的BERT令牌词汇表，将每个实体视为一组（子）单词令牌。这忽略了电子商务中大量的特殊含义实体，不可避免地使不同的实体与共享的混淆（子）单词令牌（诸如“Canada Goose”和“Golden Goose”）相互干扰。假设我们有两个品牌：Canada Goose：一个知名的冬季服装品牌，以其高质量的羽绒服著称。Golden Goose：一个意大利品牌，以其独特设计的运动鞋而闻名。在BERT模型中，这两个品牌名可能被拆分成以下（子）词令牌：“Canada Goose” 可能被拆分为 “Canada” 和 “Goose”。“Golden Goose” 可能被拆分为 “Golden” 和 “Goose”。这两个品牌都包含“Goose”这个子词令牌。这意味着在模型的词汇中，“Goose”可能被视为一个普通的词汇，而不是特定于某个品牌的标识。
共享的子词令牌：这两个品牌都包含“Goose”这个子词令牌。这意味着在模型的词汇中，“Goose”可能被视为一个普通的词汇，而不是特定于某个品牌的标识。
当模型处理与“Canada Goose”相关的图像或文本时，它可能会错误地将某些特征与“Golden Goose”关联起来，因为它们共享“Goose”这个子词令牌。

在这里插入图片描述
Meta数据的多样性导致了动机2：Meta数据对跨模态检索的贡献是不均匀的。具体来说，以前的方法通常将所有元数据连接在一起以形成长句。然而，这种简单的解决方案平等地对待每个Meta信息是不对的，有些元数据甚至可能对检索有害
在这里插入图片描述

这是文章的整体框架，相比CLIP他多了两个模块，EA-学习者，CE选择者。

首先我们把CLIP放到因果观中。最后分类分类就变成了第二个公式。

首先这个CE选择者就是根据动机2设计，首先把品牌，季节，类别等这些标签分别作为一个实体，我们选择一部分实体放入模型中进行训练。让模型自己选择哪些标签也就是说实体是有助于分类的。
在这里插入图片描述
EA学习者模块旨在明确捕获每个个体实体信息，而无需担心通用和电子商务领域之间的模糊实体语义或由于共享（子）单词标记而交织的实体表示。也就是针对之前的动机-1，也就是将之前的那个公式，给参数化了。EjI就是图像的特征，EiD就是文本的特征，然后EiA就是元数据、标签的特征，这里比如加拿大鹅两个单词不会再拆分而是一体的。
在这里插入图片描述