当前位置: 首页 > news >正文

54 循环神经网络RNN_by《李沐:动手学深度学习v2》pytorch版

系列文章目录


文章目录

  • 系列文章目录
  • 循环神经网络
  • 使用循环神经网络的语言模型
  • 困惑度(perplexity)
  • 梯度剪裁


循环神经网络

在这里插入图片描述
在这里插入图片描述

使用循环神经网络的语言模型

在这里插入图片描述
输入“你”,更新隐变量,输出“好”。

困惑度(perplexity)

语言模型说白了,是个分类模型,我的输出是对下一个词的预测,假设一共有m个词,也就是m个类的分类问题,对于分类问题,当然可以使用交叉熵来做。
在这里插入图片描述

梯度剪裁

对于长度为 T T T的序列,我们在迭代中计算这 T T T个时间步上的梯度,将会在反向传播过程中产生长度为 O ( T ) \mathcal{O}(T) O(T)的矩阵乘法链,当 T T T较大时,它可能导致数值不稳定。
一个流行的替代方案是通过将梯度 g \mathbf{g} g投影回给定半径(例如 θ \theta θ)的球来裁剪梯度 g \mathbf{g} g
如下式:

g ← min ⁡ ( 1 , θ ∥ g ∥ ) g . \mathbf{g} \leftarrow \min\left(1, \frac{\theta}{\|\mathbf{g}\|}\right) \mathbf{g}. gmin(1,gθ)g.

通过这样做,我们知道梯度范数永远不会超过 θ \theta θ,并且更新后的梯度完全与 g \mathbf{g} g的原始方向对齐。

http://www.lryc.cn/news/447369.html

相关文章:

  • 数据仓库-数据质量规范
  • PostgreSQL 17 发布了!非常稳定的版本
  • 【Python】执行脚本的时,如何指定运行根目录,而不是指定脚本的父级目录
  • JVM(HotSpot):程序计数器(Program Counter Register)
  • 等保托管怎么样,流程是什么样的?
  • 【HTML】img标签和超链接标签
  • 智能PPT行业赋能用户画像
  • 学习C++的第七天!
  • Java编程必备:五大高效工具与框架
  • 现代桌面UI框架科普及WPF入门1
  • in和like性能对比
  • Redis|基础学习
  • 手把手教你在Linux上构建Electron
  • 力扣【448-消失的数字】【数组-C语言】
  • 面试题:排序算法的稳定性?(文末有福利)
  • 在Jdk1.8中Collectors和Comparator使用场景
  • linux-性能优化命令
  • 基于MT79815G CPE 板子上挂usb3.0的5G 模块,WIFI能跑多少速度呢
  • R包compareGroups详细用法
  • 如何选择高品质SD卡
  • C++学习:模拟priority_queue
  • 同程旅行对标拼多多:“形似神不似”
  • HOJ网站开启https访问 申请免费SSL证书 部署证书详细操作指南
  • 程序设计基础I-实验4 循环结构之for语句
  • 深入工作流调度的内核
  • vue3中动态引入组件并渲染组件
  • 【艾思科蓝】网络安全的隐秘战场:构筑数字世界的铜墙铁壁
  • 将图片资源保存到服务器的盘符中
  • 数学建模练习小题目
  • 不可错过的10款文件加密软件,企业电脑加密文件哪个软件好用