当前位置: 首页 > news >正文

【论文速递】ACM MM 2022 - 基于统一对比学习框架的新闻多媒体事件抽取

【论文速递】ACM MM 2022 - 基于统一对比学习框架的新闻多媒体事件抽取

【论文原文】:Multimedia Event Extraction From News With a Unified Contrastive Learning Framework

【作者信息】:Liu, Jian and Chen, Yufeng and Xu, Jinan

论文:https://dl.acm.org/doi/pdf/10.1145/3503161.3548132代码:https://github.com/jianliu-ml/Multimedia-EE

博主关键词:对比学习、多媒体事件抽取、图像表征学习

推荐论文:无

摘要

从新闻中提取事件在下游应用程序中有很多好处。然而,今天的事件提取(EE)系统通常专注于单一的模态——无论是文本还是图像,并且由于新闻文档通常以多媒体格式呈现,因此这种方法会受到信息不完整的影响。在本文中,我们提出了一种新的多媒体EE方法,通过使用统一的对比学习框架桥接文本和视觉模式。我们的中心思想是为文本和图像创建一个共享空间,以改善它们的相似表示。这通常是通过对文本图像对进行训练来实现的,我们证明,通过研究另一种模态的互补性,可以使用该框架来促进一种模态学习。在基准数据集上,我们的方法实现了一个新的最先进的性能,并显示F1提高了3%。此外,我们证明,即使在视觉模态中没有标注数据的零样本场景中,它也可以实现视觉模态EE最前沿性能。

1、简介

在这里插入图片描述

目前的EE方法主要用于单一形式——文本或图像[16],并且由于新闻文章通常以多媒体格式呈现,因此它们存在获取不完整信息的风险。考虑图1所示的新闻文章。本文描述了一个攻击事件(用文本单词“fires”表示);然而,事件的一个论点,即[machine gun],只出现在图片中。根据先前的研究,超过30%的新闻图像包含文本中不存在的视觉事件论点[16],使得多媒体EE成为一个关键话题。

多媒体EE的发展有两个主要障碍。第一个是数据问题:由于标注昂贵,标记有并行文本视觉事件的资源有限。现有数据集,如文本模态中的ACE 2005语料库[20]和视觉模态中的imSitu语料库[31],具有完全不同的事件定义/模式,使得跨模态数据共享具有挑战性。第二个问题与建模有关-由于缺乏并行数据,先前的多媒体EE方法通常使用流水线方法和启发式规则来对齐数据[28,33]并学习模态不变模式(例如,使用绑定分类器[16])。然而,这些方法存在一定的缺陷,流水线方法会存在错误传递,学习模态不变模式很难在全局角度捕捉不同模态的依赖性。

在这项研究中,我们提供了一种新的多媒体EE方法,展示了有效应对上述挑战的优势。与之前的工作相比,我们的方法通过统一的对比学习框架为图像、文本和事件模式创建了共享的表示空间。我们证明,使用该框架,任何配对的文本图像资源,无论模式如何,都可以用于模型训练,这大大减轻了缺少并行标记数据的问题。另一方面,该框架避免了管道方法的复杂性,并能够从整体角度对不同模式的相互依赖性进行建模。特别是,给定一个多媒体文档,1)我们可以将图像投影到联合表示空间中,并将其用作增强文本EE的额外证据,2)类似地,我们可以将文本投影到联合表达空间中,以找到增强视觉EE的补充线索。此外,通过评估句子和图像的相似性,这种联合空间自然能够实现跨模态事件的共同参考。

我们基于M2E2基准评估了我们的方法[16]。根据结果,我们的方法显著优于以前的方法(包括单模态方法和多模态方法),在F1中,事件提取和事件论元提取分别提高了2.6%和3.4%-这显然证明了其有效性。有趣的是,通过使用这种对比学习框架,我们发现,即使在没有用于训练的训练数据的零样本场景中,我们的方法也能达到与最先进方法相比的竞争性能。此外,我们进行了一系列定性和定量研究,以调查我们方法的优点和缺点。

总之,我们有三个贡献:

  • 我们为多媒体EE提供了一种新的方法,该方法使用统一的对比学习框架来解决数据和模型挑战。作为一项研究多媒体EE对比学习的开创性研究,我们的工作可能会启发这方面的更多研究。
  • 我们表明,使用我们的统一框架,无论其标注模式如何,都可以利用不同模式的资源进行学习。此外,通过采用整体建模方法,该统一解决方案避免了管道方法的复杂性。
  • 我们根据标准基准建立了新的最先进性能。此外,我们还表明,即使在零样本场景中,我们的方法也能与以前的视觉EE方法相媲美。

2、方法

图2描述了我们方法的高级概述。特别是,我们首先引入了一个对比学习框架来学习图像、文本和事件本体(例如,事件类型和语义角色)的共享表示空间。然后,使用这个共享空间,我们进行文本和视觉EE,以将补充信息合并到其他模态中。最后,我们执行具有相似性度量的跨模态事件共同参考过程,以组合来自多个模态的事件。我们的方法的技术细节如下。

4、实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

【论文速递 | 精选】

论坛地址:https://bbs.csdn.net/forums/paper
http://www.lryc.cn/news/39846.html

相关文章:

  • 数据库分库分表
  • 【C缺陷与陷阱】----语义“陷阱”
  • JavaWeb--VUE
  • 2分钟彻底搞懂“高内聚,低耦合”
  • 网络编程UDP TCP
  • 【2023-Pytorch-检测教程】手把手教你使用YOLOV5做电线绝缘子缺陷检测
  • 交叉编译(NDK)
  • 【数据库】MySQL 解读事务的意义及原则
  • 【Linux】冯诺依曼体系结构
  • 【小白】git是什么?gitee和git和github的关系?
  • UDS 14229 -1 刷写34,36,37服务,标准加Trace讲解,没理由搞不明白
  • 【Android -- 软技能】聊聊程序员的软技能
  • 【Java学习笔记】27.Java 抽象类
  • Vite4 + Vue3 + vue-router4 动态路由
  • MS(mbed l432KC)-->速通9个lab详细解析[5]
  • XXE漏洞复现
  • 初识C++需要了解的一些东西(2)
  • 全国程序员薪酬大曝光!看完我酸了····
  • 改进YOLO系列 | CVPR2023最新Backbone | FasterNet 远超 ShuffleNet、MobileNet、MobileViT 等模型
  • Nginx常见用法
  • MySQL存储引擎和日志管理
  • Arduino 驱动DS1307时钟模块使用介绍
  • 为什么 Python 没有 main 函数?
  • 【无标题】使用Bibtex4word 整理毕业论文参考文献
  • 19--网络API(java版)
  • ElasticSearch - 分片内部原理之动态更新索引、近实时搜索、持久化变更、段合并
  • 模拟数据采集卡之ADCTDC 模拟时间/数字转换器组合应用选型指南
  • R语言编程基础
  • 2023-03-15:屏幕录制并且显示视频,不要用命令。代码用go语言编写。
  • STM32外设-DMA