当前位置: 首页 > news >正文

图文检索(16):IDC: Boost Text-to-Image Retrieval via Indirect and Direct Connections

IDC: Boost Text-to-Image Retrieval via Indirect and Direct Connections

  • 摘要
  • 3 方法
    • 3.1 直接连接
    • 3.2 间接连接
    • 3.3 DLB 正则化
  • 结论


发布时间(2024 LREC-COLING)


标题:IDC:通过间接和直接连接增强文本到图像的检索

摘要

本文:知识蒸馏,利用文本解码器模拟交叉模态交互

双编码器(DE)框架将图像和文本输入映射到一个协调的表示空间中,并直接计算它们的相似度。而交叉注意(CA)框架在完成图像和文本的特征嵌入后进行模态交互,然后输出相似度得分。对于批量查询请求或大查询集的场景,后者更准确,但前者更快。因此,这项工作通过借鉴CA框架的优势找到了一种提高DE框架检索准确率的新方法。从图像字幕制作中汲取灵感,我们在模型训练阶段引入文本解码器来模拟跨模态交互功能,就像CA框架一样。文本解码器最终被丢弃,使我们的模型与DE框架保持一致。最后,为了保证训练的稳定性和防止过拟合,我们修改了来自最后一个小批量的自我蒸馏并将其应用于检索领域。在MSCOCO和Flickr30K数据集上进行的大量实验验证了我们提出的方法的有效性。值得注意的是,与 Flickr30K 数据集上最先进的方法相比,我们的模型取得了有竞争力的结果

3 方法

1)双流编码后的text 和 image 建立直接连接
2)利用text decoder 分别与text和image建立非直接连接

3.1 直接连接

文本的两个掩码器
一个使用前向掩码:掩码后面的内容
一个使用后向掩码:掩码前面的内容

损失还是采用对比损失

3.2 间接连接

分开编码,然后计算相似度的方式是直接连接
利用前向单词 + 图片–》解码后面的文本

3.3 DLB 正则化

结论

在本文中,我们的目标是在保持文本到图像检索速度的同时提高其准确率。 具体来说,我们使用文本解码器来模拟 CA 框架等模态之间的交互功能。以文本解码器为节点,我们建立了间接连接以最小化标题特征与图像/文本特征之间的距离,这有助于匹配相应的图像和文本。此外,为了在训练阶段保持稳定性和一致性,我们改进了 DLB 正则化,使其适用于文本到图像检索领域。进行了广泛的消融研究,在 MSCOCO 和 Flickr30K 数据集上的实验结果证明了所提出方法的有效性。特别是,我们的模型在 Flickr30K 基准数据集上取得了最先进的结果。重现我们结果的代码可在 https://github.com/moment-ggw/IDC/tree/main 上找到。在不久的将来,我们计划设计一种更直接的方法,允许将知识从间接连接提炼到直接连接

http://www.lryc.cn/news/474823.html

相关文章:

  • 企业数字化转型:重识、深思、重启新征程-亿发
  • 仓颉刷题录-字符串数字转换(一)
  • SpringBoot【实用篇】- 配置高级
  • liunx CentOs7安装MQTT服务器(mosquitto)
  • 【银河麒麟高级服务器操作系统】虚拟机lvm分区丢失现象分析及解决建议
  • Android 原子性类型都有哪些
  • MySQL(上)
  • ffplay 实现视频流中音频的延迟
  • CSDN资源变现
  • Rembg模型构建教程
  • 向量的基础知识和矩阵向量的坐标旋转
  • GeoSever发布图层(保姆姬)
  • AI 大模型的发展趋势是怎样的?
  • win10怎么关掉自动更新-小白必看
  • 大学城水电资源管理:Spring Boot解决方案
  • 躺平成长-运营日记-第三天
  • 智慧税务管理:金融企业报税效率与合规性提升
  • linux之网络子系统-用户层接收数据包之同步阻塞方案
  • 【天线&空中农业】花生霉变检测系统源码&数据集全套:改进yolo11-LVMB
  • 全志A133 android10 LVDS幅值调节
  • 弃用 RestTemplate,来了解一下官方推荐的 WebClient !
  • 西圣、倍思、品胜电容笔孰强孰弱?多维度对比测评三款平替电容笔
  • VS2022配置调试Qt源代码
  • Python 的 Pygame 库来开发一个游戏
  • diffusion model 学习笔记
  • 【C++题解】1967. 输出字符的ascii码
  • Java入门9——类和对象+this+构造方法
  • Django目录结构最佳实践
  • npm run dev 报错PS ‘vite‘ 不是内部或外部命令,也不是可运行的程序或批处理文件。
  • 后端:Spring、Spring Boot-实例化Bean依赖注入(DI)