当前位置: 首页 > news >正文

EI-CLIP 深度理解 PPT

系列文章目录


文章目录

  • 系列文章目录


在这里插入图片描述
在电子商务产品的跨模态检索中,电子商务图像和电子商务语言都有许多独特的特点。如图所示,一个电子商务产品图片通常只包含一个简单的场景,有一个或两个前景物体和一个普通的背景。同时,电子商务语言通常由一组元数据(标签实体)组成,包括产品名称/描述、品牌、类别、成分等。之前的工作,如FashionBERT 表明,时尚领域的跨模态检索需要更细粒度的特征,比如如短袖和圆领。
在这里插入图片描述
在电子商务中,单词标记经常会产生特殊的含义,而[10,38,72]中的预训练语言模型部分尽管有大规模的预训练语料库,但仍有偏见。例如,在预训练的CLIP模型中,实体“diesel”与概念“fuel”紧密相关,而在电子商务时尚领域中,“diesel”被标记为品牌实体。其他例子包括“canada goose(品牌)“、“golden goose(品牌)”、“top(类别)"等
在这里插入图片描述
介绍一下因果学习,和分布外的问题,根据应用场景的不同Causal learning 的最终目的是不同的,其中一个比较重要的目的就是想解决Machine learning的Out-of-Distribution Generalization(OODG)的问题。假设我们想分类骆驼和奶牛的图片, ,我们获得的图片中大概率是下图的情形。
。比如我们的训练数据中,骆驼大多数出现在沙化的土地(背景偏黄),奶牛大多数出现在长有植被的土地(背景偏绿)。这样一来,由于背景往往占据图片的主要内容,我们的模型学到的很可能是背景相关的特征,比如背景颜色,然后使用背景颜色对图片进行分类。即使我们在训练集上得到比较好的效果,但是如果测试集的分布和训练集不一样,那就出问题了。也就是说,如果新的测试集也是骆驼大多数背景偏黄,奶牛大多数背景偏绿,那么我们的模型可能还是会有比较好的表现。但如果不是这种情形,而是下图中的情形,那么模型很可能表现很糟糕

在这里插入图片描述
上图中,我们可以看到骆驼出现在了绿化草地,而奶牛出现在了沙化草地,这种情形在现实生活中还是可能存在的。如果我们新的数据中这种类型的图片较多(数据分布和之前的不同),而我们之前的模型又是根据背景色进行预测,可想而知预测结果肯定不好。更有甚者,我们可以随意的进行PS,把背景换成任意的形式,比如下图中的情形。
在这里插入图片描述介绍一下混杂因素,或者叫干扰因子。多模态微调中存在分布外问题,Zhang等人将图像和语言之间的这种不受欢迎的虚假相关性表述为从预训练数据集学习的“混杂因素”。Zhang等人通过使用结构因果模型(SCM)图建模,通过后门干预进行硬干预以消除数据集偏倚。在SCM图中,每个节点代表一个变量,有向边表示因果影响。例如,如果变量 AA 影响变量 BB,则会有一条从 AA 到 BB 的有向边。也就是说他们通过硬干预:也就是主动改变模型中某个变量的值,以观察其对其他变量的影响,来得出结论这个变量是不是真正的因,然后消除数据集偏倚,使得模型泛化能力强,数据集偏差就指训练数据未能准确代表目标人群或模型应用时的条件。这可能导致模型的泛化能力差和预测偏差。

在这里插入图片描述
Zhang等人的缺点:遵循传统的BERT令牌词汇表,将每个实体视为一组(子)单词令牌。这忽略了电子商务中大量的特殊含义实体,不可避免地使不同的实体与共享的混淆(子)单词令牌(诸如“Canada Goose”和“Golden Goose”)相互干扰。假设我们有两个品牌:Canada Goose:一个知名的冬季服装品牌,以其高质量的羽绒服著称。Golden Goose:一个意大利品牌,以其独特设计的运动鞋而闻名。在BERT模型中,这两个品牌名可能被拆分成以下(子)词令牌:“Canada Goose” 可能被拆分为 “Canada” 和 “Goose”。“Golden Goose” 可能被拆分为 “Golden” 和 “Goose”。这两个品牌都包含“Goose”这个子词令牌。这意味着在模型的词汇中,“Goose”可能被视为一个普通的词汇,而不是特定于某个品牌的标识。
共享的子词令牌:这两个品牌都包含“Goose”这个子词令牌。这意味着在模型的词汇中,“Goose”可能被视为一个普通的词汇,而不是特定于某个品牌的标识。
当模型处理与“Canada Goose”相关的图像或文本时,它可能会错误地将某些特征与“Golden Goose”关联起来,因为它们共享“Goose”这个子词令牌。

在这里插入图片描述
Meta数据的多样性导致了 动机2:Meta数据对跨模态检索的贡献是不均匀的。具体来说,以前的方法通常将所有元数据连接在一起以形成长句。然而,这种简单的解决方案平等地对待每个Meta信息是不对的,有些元数据甚至可能对检索有害
在这里插入图片描述
在这里插入图片描述
这是文章的整体框架,相比CLIP他多了两个模块,EA-学习者,CE选择者。
在这里插入图片描述
首先我们把CLIP放到因果观中。最后分类分类就变成了第二个公式。
在这里插入图片描述
首先这个CE选择者就是根据动机2设计,首先把品牌,季节,类别等这些标签分别作为一个实体,我们选择一部分实体放入模型中进行训练。让模型自己选择哪些标签也就是说实体是有助于分类的。
在这里插入图片描述
EA学习者模块旨在明确捕获每个个体实体信息,而无需担心通用和电子商务领域之间的模糊实体语义或由于共享(子)单词标记而交织的实体表示。 也就是针对之前的动机-1,也就是将之前的那个公式,给参数化了。EjI就是图像的特征,EiD就是文本的特征,然后EiA就是元数据、标签的特征,这里比如加拿大鹅两个单词不会再拆分而是一体的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/462225.html

相关文章:

  • leetcode力扣刷题系列——【最小元素和最大元素的最小平均值】
  • 【线性回归分析】:基于实验数据的模型构建与可视化
  • CountUp.js 实现数字增长动画 Vue
  • 设计模式大全
  • redis IO多路复用机制
  • Oracle漏洞修复 19.3 补丁包 升级为19.22
  • Q2=10 and Q2=1--PLB(Fig.4)
  • sd卡挂载返回FR_NOT_READY等错误
  • 推荐一款超级实用的浏览器扩展程序!实时翻译网页,支持多种语言(带私活源码)
  • manjaro kde 24 应该如何设置才能上网(2024-10-13亲测)
  • 2024软件测试面试大全(答案+文档)
  • unity动态批处理
  • faust,一个神奇的 Python 库!
  • electron本地OCR实现
  • RK3588的demo板学习
  • 基于springboot驾校管理系统
  • 关于Vue脚手架
  • MySQL 指定字段排序
  • Mysql—高可用集群MHA
  • MeshGS: Adaptive Mesh-Aligned GaussianSplatting for High-Quality Rendering 论文解读
  • JDK-23与JavaFX的安装
  • LeetCode讲解篇之2266. 统计打字方案数
  • 2025推荐选题|基于MVC的农业病虫害防治平台的设计与实现
  • Vue 3 的不同版本总结
  • 在wpf 中 用mvvm 的方式 绑定 鼠标事件
  • TELEDYNE DALSA相机连接编码器
  • 每天一个数据分析题(五百零八)- 机器学习模型
  • leetcode栈与队列(一)-有效的括号
  • 鸿蒙NEXT开发-知乎评论小案例(基于最新api12稳定版)
  • 重学SpringBoot3-集成Redis(十一)之地理位置数据存储