当前位置：首页 > news >正文

图文检索（16）：IDC: Boost Text-to-Image Retrieval via Indirect and Direct Connections

news 2025/8/25 16:15:05

IDC: Boost Text-to-Image Retrieval via Indirect and Direct Connections

摘要
3 方法
- 3.1 直接连接
- 3.2 间接连接
- 3.3 DLB 正则化
结论

发布时间（2024 LREC-COLING）

标题：IDC：通过间接和直接连接增强文本到图像的检索

摘要

本文：知识蒸馏，利用文本解码器模拟交叉模态交互

双编码器（DE）框架将图像和文本输入映射到一个协调的表示空间中，并直接计算它们的相似度。而交叉注意（CA）框架在完成图像和文本的特征嵌入后进行模态交互，然后输出相似度得分。对于批量查询请求或大查询集的场景，后者更准确，但前者更快。因此，这项工作通过借鉴CA框架的优势找到了一种提高DE框架检索准确率的新方法。从图像字幕制作中汲取灵感，我们在模型训练阶段引入文本解码器来模拟跨模态交互功能，就像CA框架一样。文本解码器最终被丢弃，使我们的模型与DE框架保持一致。最后，为了保证训练的稳定性和防止过拟合，我们修改了来自最后一个小批量的自我蒸馏并将其应用于检索领域。在MSCOCO和Flickr30K数据集上进行的大量实验验证了我们提出的方法的有效性。值得注意的是，与 Flickr30K 数据集上最先进的方法相比，我们的模型取得了有竞争力的结果

3 方法

1）双流编码后的text 和 image 建立直接连接
2）利用text decoder 分别与text和image建立非直接连接

3.1 直接连接

文本的两个掩码器
一个使用前向掩码：掩码后面的内容
一个使用后向掩码：掩码前面的内容

损失还是采用对比损失

3.2 间接连接

分开编码，然后计算相似度的方式是直接连接
利用前向单词 + 图片–》解码后面的文本

3.3 DLB 正则化

结论

在本文中，我们的目标是在保持文本到图像检索速度的同时提高其准确率。具体来说，我们使用文本解码器来模拟 CA 框架等模态之间的交互功能。以文本解码器为节点，我们建立了间接连接以最小化标题特征与图像/文本特征之间的距离，这有助于匹配相应的图像和文本。此外，为了在训练阶段保持稳定性和一致性，我们改进了 DLB 正则化，使其适用于文本到图像检索领域。进行了广泛的消融研究，在 MSCOCO 和 Flickr30K 数据集上的实验结果证明了所提出方法的有效性。特别是，我们的模型在 Flickr30K 基准数据集上取得了最先进的结果。重现我们结果的代码可在 https://github.com/moment-ggw/IDC/tree/main 上找到。在不久的将来，我们计划设计一种更直接的方法，允许将知识从间接连接提炼到直接连接

查看全文

http://www.lryc.cn/news/474823.html