当前位置: 首页 > news >正文

BatchNormalization和LayerNormalization的理解、适用范围、PyTorch代码示例

文章目录

  • 为什么要Normalization
  • BatchNorm
  • LayerNorm
  • torch代码示例

学习神经网络归一化时,文章形形色色,但没找到适合小白通俗易懂且全面的。学习过后,特此记录。

为什么要Normalization

当输入数据量级极大或极小时,为保证输出数据有效,参数必需被训练到一个极小或极大的区间,而这对初始化来说非常困难,且多层网络链式法则求导会导致梯度消失或爆炸的问题。

Reference:神经网络为什么要归一化
归一化的具体计算过程:CSDN博客

BatchNorm

BN适用于大多数Dataframe样式的常规数据。
BN对每个特征进行归一化,如下图,分别计算身高归一化后的数据、体重归一化后的数据、年龄归一化后的数据。好理解。

LayerNorm

对于NLP数据,不适用于BN。
BN的逻辑是每个变量来自于某一特定分布,虽然每次只计算一个batch内的数据,但第一个batch(如前64名同学)的身高和第二个batch(后64名同学)的身高,大概率来自同样的分布。
而对文本数据来说,所有句子的第一个词不一定来自同一分布,第二个词也是。每个句子的长度也不同,对句子末尾几个词作BN就相当于对最长句子的最后一个词和一堆padding值作BN,没有意义。
这里就要用到LN,即对每条样本作归一化,即“横着”归一化。

torch代码示例

BatchNorm: 参考pytorch BatchNorm参数详解,计算过程

# BatchNorm
import torch.nn as nn
Class Net:def __ init__():self.bn = nn.BatchNorm1d(20,affine=True)passdef forward(x):# x:(N,L),对L个变量分别进行normalizationout = self.ln(x)# out: (N,L)

LayerNorm: 参考pytorch 层标准化 LayerNorm 的用法

# LayerNorm
import torch.nn as nn
Class Net:def __ init__():self.ln = nn.LayerNorm(W,elementwise_affine=True)	# 只对最后一个维度self.ln = nn.LayerNorm([H,W],elementwise_affine = True)	# 对最后两个维度,即均值、方差一起求,拉伸成一个维度passdef forward(x):# x: (N, H ,W),对最后几个维度进行normalizationout = self.ln1(x)out = self.ln2(x)# out: (N, seq_len, emb_dim),归一化不改变向量维度
http://www.lryc.cn/news/62925.html

相关文章:

  • 大数据 | 实验二:文档倒排索引算法实现
  • Java文档注释-JavaDoc标签
  • 黑盒测试过程中【测试方法】详解5-输入域,输出域,猜错法
  • Python学习之sh(shell脚本)在Python中的使用
  • 追求卓越:编写高质量代码的方法和技巧
  • MATLAB算法实战应用案例精讲-【人工智能】机器视觉(概念篇)(最终篇)
  • 【老王读SpringMVC-3】根据 url 是如何找到 controller method 的?
  • 人机交互到艺术设计及玫瑰花绘制实例
  • 多臂老虎机问题
  • DNS 查询原理详解
  • 浅谈软件测试工程师的技能树
  • 转型产业互联网,新氧能否再造辉煌?
  • CRE66365 应用资料
  • vue3快速上手学习笔记,还不快来看看?
  • HDU 5927 Auxiliary Set
  • 24:若所有参数皆需类型转换,请为此采用non-member函数
  • CMake(2)-详解-编译-安装-支持GDB-添加环境检查-添加版本号-生成安装包
  • java面试题(redis)
  • Vue组件懒加载
  • Qt音视频开发42-网络推流(视频推流/本地摄像头推流/桌面推流/网络摄像头转发推流等)
  • 更简单的存取Bean方式-@Bean方法注解
  • 边缘计算与AI布署应用电力物联网解决方案-RK3588开发平台
  • centos部署unity accelerator
  • HANA开发指南
  • 请问你见过吐代码的泡泡吗(冒泡排序)
  • 【VM服务管家】VM4.0平台SDK_2.1环境配置类
  • 最新研究:可审计的具有拜占庭鲁棒的联邦学习方案
  • JDK1.8下载、安装和环境配置教程
  • 天津超算,青索帮助文档
  • SpringMVC的拦截器和异常处理器