当前位置: 首页 > news >正文

Dialogue Transformers

Abstract

本文介绍了一种基于 Transformer 架构的 对话策略,其中自注意力机制被应用于对话轮次(dialogue turns)的序列上。近期的一些工作使用层次化的循环神经网络(hierarchical recurrent neural networks)在对话上下文中对多个话语(utterances)进行编码,但是我们认为纯粹的自注意力机制是更合适的。默认情况下 RNN 假设对话序列中的每一项都与整个序列的编码相关,然而当说话者在多个话题之间切换时,一个对话往往包含多个重叠的话语片段。Transformer 在编码当前对话状态时可以挑选要包含的轮次,因此天然适合 选择性地忽略或关注对话历史。本文还比较了 Transformer Embedding Dialogue (TED) 策略和 LSTM 以及 REDP 的表现,后两者是专门被设计用来克服 RNN 的缺陷的。

INTRODUCTION

本文的目的是证明 Transformer 相比于通常使用的循环网络模型更适合于建模多轮对话。提出的 TED 架构可以被看做在各种对话任务中构建 SOTA 架构的候选组件。并非对话中的每个话语都必须是对另一方最近话语的回应。Groz and Sidner

http://www.lryc.cn/news/2780.html

相关文章:

  • 【遇见青山】项目难点:缓存击穿问题解决方案
  • 2023Flag具体实施计划(短期)
  • 研一寒假C++复习笔记--左值和右值的理解和使用
  • Android 11.0 动态修改SystemProperties中ro开头系统属性的值
  • 为什么分库分表
  • 1625_MIT 6.828 stabs文档信息整理_下
  • 论文阅读 | Rethinking Coarse-to-Fine Approach in Single Image Deblurring
  • Mysql 增删改查(二)—— 增(insert)、删(delete)、改(update)
  • JSD2212复习串讲
  • sphinx 升级到6.x后的Jquery问题
  • NSSCTF Round#8 Basic
  • 多传感器融合定位十二-基于图优化的建图方法其一
  • RockChip MPP编码
  • 【学习笔记】NOIP暴零赛2
  • linux基本功系列之hostname实战
  • Easy-Es框架实践测试整理 基于ElasticSearch的ORM框架
  • 【数据结构】双向链表的模拟实现(无头)
  • vue自定义指令---处理加载图片失败时出现的碎图,onerror事件
  • 加盟管理系统挑选法则,看完不怕被坑!
  • alertmanager笔记
  • Android Jetpack组件之WorkManager后台任务管理的介绍与使用(二)
  • 【MySQL】第十七部分 约束
  • java ssm集装箱码头TOS系统调度模块的设计与实现
  • MS14-064(OLE远程代码执行漏洞复现)
  • 【C++深陷】之shared_ptr
  • SpringMVC中遇到的错误
  • 姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计
  • jvm学习的核心(五)---垃圾回收算法和常见垃圾回收器
  • 亿级高并发电商项目-- 实战篇 --万达商城项目 二(Zookeeper、Docker、Dubbo-Admin等搭建工作
  • 【C#基础】 C# 数据类型总结