当前位置: 首页 > news >正文

An Efficient Memory-Augmented Transformer for Knowledge-Intensive NLP Tasks

本文是LLM系列文章,针对《An Efficient Memory-Augmented Transformer for
Knowledge

一种用于知识密集型NLP任务的高效内存增强转换器

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 高效内存增强Transformer
  • 4 EMAT的训练流程
  • 5 实验
  • 6 分析
  • 7 结论
  • 局限性

摘要

获取外部知识对于许多自然语言处理任务至关重要,例如问答和对话。现有的方法通常依赖于将知识存储在其参数中的参数模型,或者使用可以访问外部知识源的检索增强模型。参数模型和检索增强模型在计算效率和预测准确性方面具有互补优势。为了结合这两种方法的优势,我们提出了高效内存增强Transformer(EMAT)——它将外部知识编码为键值内存,并利用快速最大内积搜索进行内存查询。我们还引入了预训练任务,允许EMAT对信息性键值表示进行编码,并学习将多个内存槽集成到Transformer中的隐式策略。在各种知识密集型任务(如问答和对话数据集)上的实验表明,使用我们的方法简单地扩充参数模型(T5基础)会产生更准确的结果(例如,25.8→ NQ上的44.3 EM)同时保持高吞吐量(例如NQ上1000个查询/s)。与检索的改进模型相比,EMAT在WoW和ELI5上运行得更快,结果更准确。

1 引言

2 相关工作

3 高效内存增强Transformer

4 EMAT的训练流程

5 实验

6 分析

7 结论

在这项工作中,我们提出了一种有效的内存改进Transformer(EMAT),它结合了参数模型和检索改进模型的优点。它将外部知识编码到键值存储器中,并利用快速MIPS搜索进行存储器查询。我们引入了预训练任务,以学习更好的键值表示和将多个内存槽集成到transformer中。在知识密集型任务上的实验,包括开放域问答、对话和长形式问答,表明了EMAT的准确性和快速性。在未来,我们将寻求改进,将更多样化的知识整合到记忆中,并将我们的方法推广到更多的下游任务中。

局限性

一个限制是内存检索模块需要弱监督才能进行训练。这可能意味着,当应用于不同的下游任务时,我们定义了不同的弱监管标签。可以使用端到端的训练技术,如Paranjape等人提出的技术,用解码器的梯度训练记忆检索模块,我们将其作为未来的工作。另一个潜在的限制是,我们需要存储密集的键值存储器M,这需要大约300GB的CPU RAM。但由于获得CPU RAM比GPU内存多的机器相对容易,而且大多数深度学习工作站都能达到这一要求,我们认为这并不是太大的限制。此外,在内存资源不足的情况下,我们可以使用LRU缓存来节省RAM。

http://www.lryc.cn/news/154194.html

相关文章:

  • Java项目中jar war pom包的区别
  • 整理mongodb文档:分页
  • 社区团购新玩法,生鲜蔬菜配货发货小程序商城
  • shell bash中设置命令set
  • 机器学习---预剪枝、后剪枝(REP、CCP、PEP、)
  • Python 爬虫—scrapy
  • ABB机器人20032转数计数器未更新故障报警处理方法
  • C# 记事本应用程序
  • 模型训练:优化人工智能和机器学习,完善DevOps工具的使用
  • WorldCoin 运营数据,业务安全分析
  • Java之Calender类的详细解析
  • uniapp 微信小程序 锚点跳转
  • 主成分分析笔记
  • android studio 的 adb配置
  • 【HTML5高级第一篇】Web存储 - cookie、localStorage、sessionStorage
  • Flink---1、概述、快速上手
  • QT实现TCP通信(服务器与客户端搭建)
  • 云备份项目
  • 基础算法(一)
  • Consider defining a bean of type问题解决
  • Android 1.2.1 使用Eclipse + ADT + SDK开发Android APP
  • Llama-7b-hf和vicuna-7b-delta-v0合并成vicuna-7b-v0
  • Centos、OpenEuler系统安装mysql
  • 如何在Win10系统上安装WSL(适用于 Linux 的 Windows 子系统)
  • 单片机通用学习-​什么是寄存器?​
  • 【C语言】文件操作详解
  • 栈(Stack)的详解
  • 深入了解GCC编译过程
  • leetcode 594.最长和谐子序列(滑动窗口)
  • 深入剖析云计算与云服务器ECS:从基础到实践