当前位置: 首页 > news >正文

深度学习5:长短期记忆网络 – Long short-term memory | LSTM

目录

什么是 LSTM?

LSTM的核心思路


什么是 LSTM?

长短期记忆网络——通常被称为 LSTM,是一种特殊的RNN,能够学习长期依赖性。由 Hochreiter 和 Schmidhuber(1997)提出的,并且在接下来的工作中被许多人改进和推广。LSTM 在各种各样的问题上表现非常出色,现在被广泛使用。

LSTM 被明确设计用来避免长期依赖性问题。长时间记住信息实际上是 LSTM 的默认行为,而不是需要努力学习的东西!

所有递归神经网络都具有神经网络的链式重复模块。在标准的 RNN 中,这个重复模块具有非常简单的结构,例如只有单个 tanh 层。

RNN中,只有单个tanh层

LSTM 也具有这种类似的链式结构,但重复模块具有不同的结构。不是一个单独的神经网络层,而是四个,并且以非常特殊的方式进行交互。

 

不要担心细节。稍后我们将逐步浏览 LSTM 的图解。现在,让我们试着去熟悉我们将使用的符号。

不同符号的含义

在上面的图中,每行包含一个完整的向量,从一个节点的输出到其他节点的输入。粉色圆圈表示逐点运算,如向量加法;而黄色框表示学习的神经网络层。行合并表示串联,而分支表示其内容正在被复制,并且副本将转到不同的位置。

LSTM的核心思路

LSTM 的关键是细胞状态,即图中上方的水平线。

细胞状态有点像传送带。它贯穿整个链条,只有一些次要的线性交互作用。信息很容易以不变的方式流过。

LSTM 的关键是细胞状态,即图中上方的水平线

LSTM 可以通过所谓“门”的精细结构向细胞状态添加或移除信息。

门可以选择性地以让信息通过。它们由 S 形神经网络层和逐点乘法运算组成。

LSTM 可以通过所谓“门”的精细结构向细胞状态添加或移除信息

S 形网络的输出值介于 0 和 1 之间,表示有多大比例的信息通过。0 值表示“没有信息通过”,1 值表示“所有信息通过”。

一个 LSTM 有三种这样的门用来保持和控制细胞状态。

长短期记忆人工神经网络(Long-Short Term Memory,LSTM)

由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

LSTM的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好,比如用在不分段连续手写识别上。2009年,用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别,2013年运用TIMIT自然演讲数据库达成17.7%错误率的纪录。作为非线性模型,LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

长短期记忆(LSTM)单位是递归神经网络(RNN)的单位。由LSTM单元组成的RNN通常称为LSTM网络(或仅称为LSTM)。公共LSTM单元由单元,输入门,输出门和忘记门组成。该单元记住任意时间间隔内的值,并且三个门控制进出单元的信息流。

LSTM网络非常适合基于时间序列数据进行分类,处理和预测,因为在时间序列中的重要事件之间可能存在未知持续时间的滞后。开发LSTM是为了处理在训练传统RNN时可能遇到的爆炸和消失的梯度问题。对于间隙长度的相对不敏感性是LSTM相对于RNN,隐马尔可夫模型和其他序列学习方法在许多应用中的优势。

http://www.lryc.cn/news/141593.html

相关文章:

  • LabVIEW开发灭火器机器人
  • 1.2 Kali Linux的网络配置
  • 目标检测的训练过程
  • 软考高级系统架构设计师系列论文七十七:论软件产品线技术
  • 基于大语言模型知识问答应用落地实践 – 知识库构建(上)
  • 一文1500字从0到1搭建 Jenkins 自动化测试平台
  • 前端面试:【实际项目经验】团队协作、代码管理和Git命令梳理
  • 关于异数OS服务器CPU效能分析工具
  • 十四、pikachu之XSS
  • 五分钟了解最短路径寻路算法:Dijkstra 迪杰斯特拉
  • 【ARM】Day8 中断
  • 大数据Flink(六十八):SQL Table 的基本概念及常用 API
  • 算法练习- 其他算法练习6
  • ModaHub魔搭社区:WinPlan经营大脑管理中心
  • 滑动窗口系列4-Leetcode322题零钱兑换-限制张数-暴力递归到动态规划再到滑动窗口
  • Nginx全局配置
  • VUE笔记(四)vue的组件
  • 菜鸟教程《Python 3 教程》笔记
  • JAVA学习-愚见
  • Watch数据监听详解
  • UML建模以及几种类图的理解
  • opencv进阶18-基于opencv 决策树导论
  • 13.4 目标检测锚框标注 非极大值抑制
  • 【论文笔记】最近看的时空数据挖掘综述整理8.27
  • 【大模型】基于 LlaMA2 的高 star 的 GitHub 开源项目汇总
  • 解决elementUI打包上线后icon图标偶尔乱码的问题
  • yolov3加上迁移学习和适度的数据增强形成的网络应用在输电线异物检测
  • 香橙派OrangePi zero H2+ 驱动移远EC200A
  • 写一个java中如何用JSch来连接sftp的类并做测试?(亲测)
  • 【沐风老师】如何在3dMax中将3D物体转化为样条线构成的对象?