当前位置：首页 > news >正文

connect-caption-and-trace——用于共同建模图像、文本和人类凝视轨迹预测

news 2025/7/7 13:05:14

介绍

论文地址：https://arxiv.org/abs/2105.05964
源码地址：https://github.com/facebookresearch/connect-caption-and-trace

在过去，计算机视觉和自然语言处理领域的模型和算法的发展只有偶尔的重叠，但近年来，这两个领域的想法逐渐趋同。

特别是，重点是建立多模态模型来协调视觉和语言，这些模型的目标是模仿人类压缩信息和跨模态翻译的非凡能力。

然而，尽管取得了这些进展现有的图像标题数据集只提供简短的名词或短语级别的标题，并且而且，到目前为止，图像标题和视觉定位模型无法联合生成长篇自然语言标题和高度精确的词级视觉定位。

本文介绍了一个使用新颖的Transformer架构解决上述问题的论文，该架构对图像、标题和追踪这三种模式进行联合建模。

数据集和新任务概述

首先，描述了本文中使用的本地化叙事数据集和使用它的新任务。

本地化叙述数据集是通过同时记录注释者描述图像内容时的声音和鼠标痕迹来收集的。该数据集将由三种模式组成：图像、标题和追踪。

虽然关于这个数据集的原始论文只处理了一个任务**–从图像和痕迹中生成标题**–但本文提出了两个额外的、具有挑战性的新任务

以图像和标题作为输入，生成痕迹。
只用图像作为输入就能生成标题和痕迹。

这在下图中得到了体现。(表中第1行和第3行是新任务）

虽然这三项任务乍看之下是分开的，但本文提出了一个新颖的模型架构并提出了一个统一的框架对这三项任务进行联合建模。

MRL（Mirrored TransformeR）

本文没有为上述三个任务建立三个独立的模型，而是提出了一个模型，在一个统一的框架内有效地学习，并共享参数，由于其对称结构，本文将这个模型架构命名为Mirrored TransformeR（MITR）。该模型架构因其对称的结构而被命名为镜像传输（MITR）。(见下图)

特征值

模型的输入是一个图像特征、文本特征和痕迹特征的子集，每个特征都是

图像特征使用预先训练好的Faster R-CNNs来计算检测区域的视觉特征。
对于文本特征，与现有的研究一样，总和位置嵌入和词嵌入
在轨迹特征中，位置嵌入和输入轨迹对d个隐藏维度的投影被加在一起。

模型结构

该模型由三个模块组成：1）图像编码器，2）字幕编码-解码器和3）轨迹编码-解码器。(见下图)

让我们分别用xv、 xw和 xr来表示输入的图像特征、文本特征和痕迹特征。图像编码器hv定义如下。

这里，按照现有的研究，前馈网络（FFN）被定义为两个线性转换层，中间有一个ReLU激活函数，MultiHead定义如下。

标题编码器-解码器hw和跟踪编码器-解码器hr也定义如下。

这些模块被设计成具有镜像结构，在标题生成和跟踪生成这两项任务中，两种模式是对称的。

另外，通过执行现有研究中提出的屏蔽操作，即编码器指的是所有输入，而解码器只指部分过去的信息 ，上述两个模块的特点是能够在编码器和解码器的角色之间无缝切换。这两个模块可以在编码器和解码器的角色之间无缝切换。

总损失功能

最终的损失函数可以表述如下

其中，**L[trace]**是trace生成中预测的trace盒与地面真实trace盒之间的L1损失，L[caption]是caption生成中的cross-entropy损失，**Lr~→w^→r是循环损失，而L[联合]**是联合字幕和追踪生成任务中的追踪损失和字幕损失之和。

实验

本文在四个数据集上进行了实验，COCO、Flickr 30k、ADE 20k和Open Images。

痕迹和标题的生成

使用本文提出的方法，跟踪生成（任务1）和标题生成（任务2）的结果如下图所示。结果显示在图2中。

如图所示，所提出的方法能够为这两项任务获得准确的生成结果。

联合字幕和痕迹生成

同时生成字幕和追踪的结果（任务3）如下图所示。

与只对字幕进行建模的基线相比，同时对痕迹和字幕进行建模，使字幕生成性能得到了显著提高。

然而，在没有人为痕迹注释生成标题的情况下，有时会观察到诸如同一对象或描述在一个标题中重复多次的缺陷，这表明需要采取一些措施，如保留所有参考对象的记录，以便在未来的发展中避免这种重复。有人建议，在未来的发展中，应采取诸如保留所有参考对象的记录的措施，以避免这种重复。

总结

提出了Mirrored TransformeR（MITR），这是一个新颖的转化器架构，它对图像、标题和追踪三种模式进行联合建模。

由于该模型有可能被用来解决各种社会问题，例如为社交媒体上的视障人士自动生成图片的本地化描述。未来的发展将受到密切关注。

查看全文

http://www.lryc.cn/news/377518.html

iOS API方法弃用警告说明及添加

canvas绘制红绿灯路口（二）

Semantic Kernel 直接调用本地大模型与阿里云灵积 DashScope

【人工智能】深度解读 ChatGPT基本原理

【教程】2024年如何快速提取爆款视频的视频文案？

【MySQL连接器(Python)指南】02-MySQL连接器(Python)版本与实现

Vim入门教程

机器学习课程复习——隐马尔可夫

大数据-数据分析初步学习，待补充

微服务为什么使用RPC而不使用HTTP通信

怪物猎人物语什么时候上线？游戏售价多少？

以创新思维点亮盲盒小程序：探索未来零售新趋势

DzzOffice集成功能最丰富的开源PHP+MySQL办公系统套件

关于生成式人工智能的发展

Python魔法方法__call__深入详解

PyQt5 生成py文件不能运行；pushButton点击事件；QTextEdit 获取输入框内容

HarmonyOS最佳实践文档总结汇总（面试题可能会问）

leetcode 56合并区间

企业微信内嵌H5项目接入聊天功能

微信小程序 this.setData高级用法(只更改单个数据)

使用npm发布自己的插件包

前端入门篇（五十二）练习6：transition过渡小动画

scrapy模块的基础使用

如何在不降低网络安全防护的前提下，优化pcdn的流量清洗效率？

linux发行版CentOS、Debian和Ubuntu的对比

WordPress如何删除内存中的缓存？

【XML模版文件参数初始化】

Golang | Leetcode Golang题解之第160题相交链表

基于FOC控制器的BLDC无刷直流电机控制系统matlab编程与仿真

ffmpeg转换视频格式

介绍