当前位置: 首页 > news >正文

为什么GRU和LSTM能够缓解梯度消失或梯度爆炸问题?

1、什么是梯度消失(gradient vanishing)?

      参数更新过小,在每次更新时几乎不会移动,导致模型无法学习。

2、什么是梯度爆炸(gradient exploding)?

      参数更新过小大,破坏了模型的稳定收敛。

3、利用梯度截断来缓解梯度爆炸问题

\textbf{g}\leftarrow min\left ( 1,\frac{\theta }{\left \| \mathbf{g} \right \|} \right )\mathbf{g}

4、门控循环单元(GRU)与普通的循环神经网络之间的关键区别是:GRU支持隐状态门控。模型有专门的机制来确定应该何时来更新隐状态,以及何时重置隐状态。这些机制是可学习的。

5、长短期记忆网络(LSTM)引入记忆元,记忆元的设计目的是用于记录附加的信息。为了控制记忆元,需要许多门,输入门、遗忘门和输出门。

6、GRU和LSTM中的门控设计策略,能够有助于缓解梯度消失或梯度爆炸问题。主要是解决长序列梯度计算中幂指数大小的问题(长序列意味着高阶幂指数计算,容易导致梯度极大或极小),可以通过门控设计来直接减少幂指数大小(直接干掉大阶数,替换为合理数值),从而缓解梯度消失或梯度爆炸问题。

http://www.lryc.cn/news/263703.html

相关文章:

  • 【力扣100】146.LRU缓存
  • 【Vue中给输入框加入js验证_blur失去焦点进行校验】
  • vue3项目引入电子签名(可横屏竖屏)
  • mysql中count(*)、count(1)、count(主键)、count(字段)的区别
  • Nginx生成自签名证书从而添加域名的HTTPS访问
  • 无框架Java转go语言写http与tcp请求
  • 【Git】Git基本操作
  • JavaSE学习笔记 Day20
  • 【蓝桥杯选拔赛真题52】python空调模式 第十四届青少年组蓝桥杯python 选拔赛比赛真题解析
  • Android Studio: 解决Gradle sync failed 错误
  • 【手写数据库】从零开始手写数据库内核,行列混合存储模型,学习大纲成型了
  • 机器学习中的一些经典理论定理
  • c语言:成本100元,40%的利润怎么计算|练习题
  • 【Python必做100题】之第二十二题(复制列表)
  • Java 数据结构篇-实现堆的核心方法与堆的应用(实现 TOP-K 问题:最小 k 个数)
  • startUML6.0.1破解方法
  • Python实现多种图像分割方法:基于阈值分割和基于区域分割
  • SQL学习笔记+MySQL+SQLyog工具教程
  • SpringBoot的日志管理
  • leetcode---76. 最小覆盖子串 [C++/滑动窗口+哈希表]
  • Kafka 分级存储在腾讯云的实践与演进
  • 域架构下的功能安全思考
  • python多线程介绍
  • 征文榜单 | 腾讯云向量数据库获奖名单公布
  • 如何预防[[MyFile@waifu.club]].wis [[backup@waifu.club]].wis勒索病毒感染您的计算机?
  • 中国风春节倒计时【实时倒计时】
  • 基于RBAC的k8s集群权限管控案例
  • 【华为数据之道学习笔记】5-11 算法模型设计
  • Flink系列之:SELECT WHERE clause
  • C#基础——委托、Action和Func的使用