当前位置：首页 > news >正文

【论文笔记】X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs

news 2025/8/27 2:53:37

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs
作者: Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah
发表: ECCV 2024
arXiv: https://arxiv.org/abs/2407.13851

基本信息

摘要

近期在多模态大型语言模型（MLLMs）方面的进步，通过将视觉感知能力整合到大型语言模型（LLMs）中，已经彻底改变了视觉-语言理解领域。

该领域的流行趋势涉及使用来自视觉-语言对比学习（CL）的视觉编码器，擅长捕捉整体表示，但在捕捉详细局部模式方面存在困难。

在本工作中，我们通过结合通过掩码图像建模（MIM）获得的高频和详细视觉表示与由CL捕获的语义丰富的低频表示，来增强MLLMs的视觉表示。为了实现这一目标，我们引入了X-Former，这是一个轻量级的Transformer模块，通过创新交互机制利用CL和MIM的互补优势。

具体来说，X-Former首先从两个冻结的视觉编码器，即基于CL的CLIP-ViT和基于MIM的MAEViT，启动视觉-语言表示学习和多模态到多模态生成学习。它进一步从冻结的LLM启动视觉到语言的生成学习，以确保X-Former的视觉特征可以被LLM解释。

为了证明我们方法的有效性，我们在需要详细视觉理解的任务上对其性能进行了评估。广泛的评估表明，X-Former在涉及GQA数据集中结构和语义类别的视觉推理任务中表现出色。对细粒度视觉感知基准的评估进一步证实了其在视觉理解方面的优越能力。

主要贡献

提出利用CL和MIM中的视觉编码器，从冻结的图像编码器中捕捉全局和局部视觉表示，以提升视觉语言理解能力。
提出具有双重交叉注意力的X-Former，用于通过图像-文本对启动多模态到多模态的生成学习，完全无需使用精心挑选或视觉指令数据。

方法

预备知识

CLIP-ViT与MAE-ViT的训练目标使得其关注点有所不同。CLIP-ViT更多关注低频信号和全局视觉表示，而MAE-ViT在理解详细视觉特征方面更加出色。

原生的Q-Former仅采用CLIP-ViT特征，尽管其在VQA和图像描述等下游任务上表现出色，但在详细视觉特征理解方面遇到了挑战。

将CLIP-ViT特征与MAE-ViT特征融合

BLIP2、BLIP2+Concatenation、BLIP2+Early Cross-Attention以及我们的方法在VQAv2（a）、GQA（b）和OKVQA（c）数据集上的性能比较

如何融合CLIP-ViT特征和MAE-ViT特征成为了本文的研究重点。

X-Former

Pre-Training

X-Former Pre-Training

CLIP-ViT: pre-trained ViT-G model from EVA-CLIP
MAE-ViT: pre-trained ViT-H model

X-Former通过优化重建、ITC、ITM和ITG损失来学习提取局部和全局表示。

🔥 X-Former
❄️ CLIP Image Encoder、MAE Image Encoder、MAE Image Decoder

LLM Alignment

X-Former LLM Alignment

LLM Decoder: OPT model

将X-Former的特征与冻结的LLM对齐。

🔥 X-Former、FC
❄️ CLIP Image Encoder、MAE Image Encoder、LLM Decoder

实验

主实验

VQAv2数据集上的零样本视觉问答结果

VQAv2数据集上的零样本视觉问答结果。

GQA和OKVQA数据集上零样本视觉问答结果

GQA和OKVQA数据集上零样本视觉问答结果。

GQA中的详细比较

GQA中的详细比较。

MLLMs在物体计数（OC）和多类识别（MCI）任务上的零样本细粒度视觉感知评估

MLLMs在物体计数（OC）和多类识别（MCI）任务上的零样本细粒度视觉感知评估。

COCO与NoCaps上的无微调结果零样本图像描述结果

COCO与NoCaps上的无微调结果零样本图像描述结果。

消融实验

消融实验

Table 5: 对MAE-ViT特征的消融。将MAE-ViT特征替换为CLIP-ViT的浅层特征。
Table 6: 重建损失的消融。

总结

在这篇论文中，我们介绍了X-Former，这是一种新型架构，旨在通过整合预训练的MAE和CLIP视觉编码器来增强多模态语言模型（MLLMs）的视觉表示。

我们的动机源于以下几点观察：

现有的MLLMs主要依赖于CLIP-ViT，但往往无法捕捉到细粒度的视觉信号；
我们的实证研究表明，简单地将CLIP-ViT和MAE-ViT相结合并不一定能带来性能提升；
MLLMs的有效性高度依赖于大规模图像-文本对进行预训练和精心策划的指令调整数据集进行微调。

X-Former通过双重交叉注意力机制有效地整合了CLIP-ViT和MAE-ViT，同时保持计算需求可控。我们的方法即插即用，可以应用于其他模型。

我们的实验结果明确表明，X-Former在各种需要稳健视觉理解的视觉推理任务中超越了BLIP-2。值得注意的是，这些优越的结果仅使用了十分之一的图像-文本对数据集，且无需任何指令调整数据集。

http://www.lryc.cn/news/467098.html

相关文章：

带权并查集注意事项

No.18 笔记 | XXE（XML 外部实体注入）漏洞原理、分类、利用及防御整理

Discuz | 全站多国语言翻译和繁体本地转换插件特色与介绍

【毕业设计】基于SpringBoot的网上商城系统

【GIT】.gitignore文件的使用

【Qt】控件——Qt多元素控件、常见的多元素控件、多元素控件的使用、List Widget、Table Widget、Tree Widget

【图论】（五）最短路径算法（D / BF / SPFA / F / A*）

Scala中的reduce

调查显示软件供应链攻击增加

JMeter使用不同方式传递接口参数

《C++开发 AR 游戏：开启未来娱乐新潮流》

列表、元组、集合、字典和 pandas 数据框（DataFrame）之间的数据转换

美图设计室

张雪峰：如果你现在是计算机专业，一定要优先报网络安全,它是未来国家发展的大方向

Golang | Leetcode Golang题解之第486题预测赢家

【Golang】Go语言中如何创建Cron定时任务

Android compose 重建流程1

C++：模板（2）

Golang 并发编程：Context 包的使用与并发控制

QGraphics类型学习使用【Qt】【C++】

迁移学习和在线学习小结

克里金插值(Kriging interpolation)

sealed class-kotlin中的封闭类

MongoDB Shell 基本命令(一）

Flink时间语义和时间窗口

在wpf中登录成功之后怎么设置主页布局及点击不同的菜单跳转到不同的页面，这个是我们做wpf项目必要会的一个功能

基于opencv的人脸闭眼识别疲劳监测

aeo认证需要什么材料

【iOS】YYModel

Cadence元件A属性和B属性相互覆盖