当前位置: 首页 > news >正文

【动手学深度学习-pytorch】 9.4 双向循环神经网络

在序列学习中,我们以往假设的目标是: 在给定观测的情况下 (例如,在时间序列的上下文中或在语言模型的上下文中), 对下一个输出进行建模。 虽然这是一个典型情景,但不是唯一的。 还可能发生什么其它的情况呢? 我们考虑以下三个在文本序列中填空的任务。

我___。

我___饿了。

我___饿了,我可以吃半头猪。

根据可获得的信息量,我们可以用不同的词填空, 如“很高兴”(“happy”)、“不”(“not”)和“非常”(“very”)。 很明显,每个短语的“下文”传达了重要信息(如果有的话), 而这些信息关乎到选择哪个词来填空, 所以无法利用这一点的序列模型将在相关任务上表现不佳。 例如,如果要做好命名实体识别 (例如,识别“Green”指的是“格林先生”还是绿色), 不同长度的上下文范围重要性是相同的。 为了获得一些解决问题的灵感,让我们先迂回到概率图模型。

双向模型

如果我们希望在循环神经网络中拥有一种机制, 使之能够提供与隐马尔可夫模型类似的前瞻能力, 我们就需要修改循环神经网络的设计。 幸运的是,这在概念上很容易, 只需要增加一个“从最后一个词元开始从后向前运行”的循环神经网络, 而不是只有一个在前向模式下“从第一个词元开始运行”的循环神经网络。 双向循环神经网络(bidirectional RNNs) 添加了反向传递信息的隐藏层,以便更灵活地处理此类信息。 图9.4.2描述了具有单个隐藏层的双向循环神经网络的架构。
在这里插入图片描述

定义

在这里插入图片描述

将前向隐状态 和反向隐状态连接起来, 获得需要送入输出层的隐状态H

模型的计算代价及其应用

在这里插入图片描述

双向层的使用在实践中非常少,并且仅仅应用于部分场合。 例如,填充缺失的单词、词元注释(例如,用于命名实体识别) 以及作为序列处理流水线中的一个步骤对序列进行编码(例如,用于机器翻译)

总结

  • 在双向循环神经网络中,每个时间步的隐状态由当前时间步的前后数据同时决定。

  • 双向循环神经网络与概率图模型中的“前向-后向”算法具有相似性。

  • 双向循环神经网络主要用于序列编码和给定双向上下文的观测估计。

  • 由于梯度链更长,因此双向循环神经网络的训练代价非常高。

  • 双向层的使用在实践中非常少,并且仅仅应用于部分场合。 例如,填充缺失的单词、词元注释(例如,用于命名实体识别) 以及作为序列处理流水线中的一个步骤对序列进行编码(例如,用于机器翻译)

http://www.lryc.cn/news/328472.html

相关文章:

  • 网际协议 - IP
  • DC-9靶场
  • 自定义类型(二)结构体位段,联合体,枚举
  • MySQL5.7源码分析--解析
  • windows10搭建reactnative,运行android全过程
  • 小迪学习笔记(内网安全)(常见概念和信息收集)
  • Python自动连接SSH
  • 机器学习实验------AGNES层次聚类方法
  • HBase常用的Filter过滤器操作
  • 容器安全与防御(德迅蜂巢)
  • 【面经八股】搜广推方向:面试记录(十一)
  • 第十四章 MySQL
  • C++项目——集群聊天服务器项目(七)Model层设计、注册业务实现
  • VBA语言専攻介绍(20240331更新)
  • Golang- 邮件服务,发送邮件
  • C语言:编译和链接
  • JavaEE 初阶篇-深入了解多线程安全问题(出现线程不安全的原因与解决线程不安全的方法)
  • 计算机网络⑦ —— 网络层协议
  • 正弦实时数据库(SinRTDB)的使用(7)-历史统计查询
  • 编译和链接知识点
  • 大话设计模式之工厂模式
  • Windows MySQL通过data 文件夹恢复数据
  • ARP协议定义及工作原理
  • express实现用户登录和注册接口
  • 数字化转型,效率增长才是王道
  • RHCE-2-chrony服务器
  • 音频RK809
  • 解决 linux 服务器 java 命令不生效问题
  • 22 多态
  • 排序算法超详细代码和知识点整理(java版)