当前位置: 首页 > news >正文

[论文笔记]Glancing Transformer for Non-Autoregressive Neural Machine Translation

引言

这是论文Glancing Transformer for Non-Autoregressive Neural Machine Translation的笔记。

传统的非自回归文本生成速度较慢,因为需要给定之前的token来预测下一个token。但自回归模型虽然效率高,但性能没那么好。
这篇论文提出了Glancing Transformer,可以只需要一次解码,并行地文本生成。并且效率不输于Transformer这种自回归方法。

简介

Transformer变成了最广泛使用的机器翻译架构。尽管它的表现很好,但Transformer的解码是低效的因为它采用序列自回归因子分解来建模概率,见下图1a。最近关于非自回归Transformer(non-autoregressive transformer,NAT)的研究的方向是并行解码目标token来加速生成。然而,纯粹(vanilla)的NAT在翻译质量上仍然落后于Transformer。NAT假设给定源句子后目标token是条件独立的(图1b)。作者认为NAT的条件独立假设阻碍了学习目标句子中单词的相关性(依赖关系)。这种相关性是至关重要的,通常Transformer通过从左到右解码来显示地捕获它。

在这里插入图片描述
也有一些补救方法提出了来捕获单词的相关性,同时保留并行解码。他们的共同思想是通过迭代解码目标token,每次解码都使用掩码语言模型进行训练(图1c)。因为这些模型需要多次解码,它的生成速度显著低于纯粹的Transformer。而仅单次生成的方法表现比自回归Transformer差很多。

http://www.lryc.cn/news/126022.html

相关文章:

  • 视觉学习(七)---Flask 框架下接口调用及python requests 实现json字符串传输
  • unity编写树形结构的文件管理页面
  • 基于单片机的家用智能浇灌系统
  • Solr的入门使用
  • css鼠标样式 cursor: pointer
  • 【解决】Kafka Exception thrown when sending a message with key=‘null‘ 异常
  • 中心极限定理 简明教程
  • 商城-学习整理-基础-库存系统(八)
  • 【C++ 学习 ⑬】- 详解 list 容器
  • 设计模式十五:命令模式(Command Pattern)
  • FPGA GTP全网最细讲解,aurora 8b/10b协议,HDMI视频传输,提供4套工程源码和技术支持
  • 用dcker极简打包java.jar镜像并启动
  • 设计模式——创建型
  • iTOP-i.MX8M开发板添加USB网络设备驱动
  • 分类预测 | MATLAB实现GAPSO-LSSVM多输入分类预测
  • JMeter 的并发设置教程
  • 数据治理有哪些产品
  • windows安装go,以及配置工作区,配置vscode开发环境
  • 第五章nginx负载均衡
  • MATLAB计算一组坐标点的相互距离(pdist、squareform、pdist2函数)
  • 我国农机自动驾驶系统需求日益增长,北斗系统赋能精准农业
  • 防雷检测行业应用完整解决方案
  • 16.4 【Linux】特殊文件与程序
  • qrcode.react生成二维码
  • ETF套利及交易者如何进行套利的
  • 了解异或的好处和用途
  • vue函数式组件
  • Idea Live Template 功能总结
  • 场景入门12----构造脚本搭建栅栏和石头墙
  • 零基础看懂免费开源的Stable Diffusion