当前位置: 首页 > news >正文

【论文笔记】A Token-level Contrastive Framework for Sign Language Translation

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: A Token-level Contrastive Framework for Sign Language Translation
作者: Biao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Yidong Chen, Xiaodong Shi
发表: ICASSP 2023
arXiv: https://arxiv.org/abs/2204.04916

基本信息

摘要

手语翻译(SLT)是一种有望弥合聋人与听力人士之间沟通鸿沟的技术。

最近,研究人员采用了需要大规模语料库进行训练的神经机器翻译(NMT)方法来实现SLT。

然而,公开可用的SLT语料库非常有限,这导致了token表示的崩溃和生成token的不准确。

为了缓解这一问题,我们提出了ConSLT,这是一种新的针对手语翻译的token级对比学习框架,通过将token级对比学习融入SLT解码过程来学习有效的token表示。

具体来说,ConSLT在解码过程中将每个token及其由不同dropout掩码生成的对应token视为正对,然后随机从不在当前句子中的词汇中抽取K个token来构建负例。

我们在两个基准(PHOENIX14T和CSL-Daily)上进行了全面的实验,包括端到端和级联设置。

实验结果表明,ConSLT比强大的基线实现了更好的翻译质量。

Statistics of SLT and NMT dataset. The size of SLT dataset PHOENIX14T is several orders of magnitude smaller than NMT dataset WMT18 En-De

方法

Visualization of token embeddings

Illustration of the ConSLT

对于每个token,我们通过不同的dropout噪声构建其正例,并从候选token集 C \mathcal{C} C 中随机采样 K K K 个token作为负例,其中 C ⊂ V ∖ S \mathcal{C} \subset \mathcal{V} \setminus \mathcal{S} CVS 表示在词汇表 V \mathcal{V} V 中但不在当前句子 S \mathcal{S} S 中的token。

实验

主实验

Results on PHOENIX14T

Results on CSL-Daily

消融实验

Ablation study on the PHOENIX14T test set

w/o CL 表示没有对比学习方法,S-CL 表示句子级对比学习方法,T-CL 表示token级对比学习方法。cos 表示使用余弦相似度作为距离度量,KL 表示使用KL散度作为距离度量。

BLEU scores with different sampling strategies of negative samples on the PHOENIX14T test set

总结

在这篇论文中,我们从表示学习的角度提供了一种缓解SLT低资源问题的新的见解。

我们引入了ConSLT,这是一种针对SLT的基于token的对比学习框架,旨在通过将当前句子之外的词汇中的token推远来学习有效的token表示。

值得一提的是,ConSLT可以应用于不同的模型结构。

我们还探讨了各种对比策略的影响,并提供了细粒度分析来解释我们的方法是如何工作的。

实验结果表明,对比学习可以显著提高SLT的翻译质量。

在未来,我们将进一步研究手语视频和口语文本之间的跨模态关系。

http://www.lryc.cn/news/495554.html

相关文章:

  • C#窗体简单登录
  • 基于ZYNQ-7000系列的FPGA学习笔记3——开发环境搭建点亮一个LED
  • 队列-链式描述(C++)
  • Kali Linux使用Netdiscover工具的详细教程
  • arkTS:使用ArkUI实现用户信息的持久化管理与自动填充(PersistentStorage)
  • IntelliJ+SpringBoot项目实战(二十)--基于SpringSecurity实现Oauth2服务端和客户端
  • 如何实现剪裁功能
  • LeetCode 动态规划 爬楼梯
  • Java 工厂模式:深度解析与应用指南
  • HTML5系列(5)-- SVG 集成详解
  • 深度学习常见数据集处理方法
  • 1180 - 【入门】数字出现次数
  • C++20: 像Python一样split字符串
  • Unity3D UI 嵌套滚动视图
  • 你还没有将 Siri 接入GPT对话功能吗?
  • _C#_串口助手_字符串拼接缺失问题(未知原理)
  • 浅析大数据时代下的网络安全
  • Mysql数据库基础篇笔记
  • rabbitmq原理及命令
  • React进阶面试题(四)
  • 24/12/1 算法笔记<强化学习> 创建Maze交互
  • Linux驱动开发(10):I2C子系统–mpu6050驱动实验
  • 《装甲车内气体检测“神器”:上海松柏 K-5S 电化学传感器模组详解》
  • 如何将多个JS文件打包成一个JS文件?
  • 100个python经典面试题详解(新版)
  • C#初阶概念理解
  • node.js基础学习-url模块-url地址处理(二)
  • 算法与数据结构(1)
  • FTP介绍与配置
  • SQL面试题——抖音SQL面试题 最近一笔有效订单