当前位置: 首页 > news >正文

[论文笔记]ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE

引言

这是论文ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE的阅读笔记。本篇论文提出了通过Pre-LN的方式可以省掉Warm-up环节,并且可以加快Transformer的训练速度。

通常训练Transformer需要一个仔细设计的学习率warm-up(预热)阶段:在训练开始阶段学习率需要设成一个极小的值,然后在一些迭代后逐步增加。这个阶段对于Transformer最终的表现非常重要,但同时引入了更多的超参数调节。学习率预热被证明在处理一些特定问题时是至关重要的,比如大批次训练。当使用较大的批大小进行训练时,在开始时使用一个较大的学习率来优化模型通常会导致较差的效果。

在优化开始阶段,对于原始的Transformer,把层归一化放到残差块之间,接近输出层的参数的梯度往往较大。然后在那些梯度上使用较大的学习率会使得训练不稳定。warm-up阶段在实际应用中有助于避免这个问题。

基于这种分析,作者提出了一种Transformer的变体,将层归一化置于残差块之中(残差连接里面)的修改方法。使得在初始化阶段梯度也表现良好,同时更容易且更快训练。因此作者做出了结论,预热阶段可以被安全地移除,同时训练时间可以大大缩减。

简介

层归一化(Layer Normalization)是Transformer中一个核心组件。原始的Transformer将层归一化放置在之间,这被称为是Post-Layer Normalization(Post-LN)的做法。见下图(a),红框表示残差块,可以看到层归一化在两个残差块之间。

http://www.lryc.cn/news/139006.html

相关文章:

  • h5逻辑_调用手机拨号功能
  • 字节一面:post为什么会发送两次请求?
  • ROS2 学习(五)接口,动作
  • Vue学习之Vue组件的核心概念
  • Web自动化测试-Selenium语法入门到精通
  • 封装axios及简单应用举例
  • Django(3)-创建第一个数据模型-ORM映射
  • C++ vector
  • Spring+redis集成redis缓存
  • 聊聊springboot的启动事件
  • jmeter HTTP请求默认值
  • CSS选择器-CSS3属性
  • 线性代数的学习和整理8:行列式相关
  • java+springboot+mysql农业园区管理系统
  • IDEA远程开发
  • Redis 工作总结
  • GO学习之 数据库(Redis)
  • 谈一谈浏览器与Node.js中的JavaScript事件循环,宏任务与微任务机制
  • User Java bean的命名规范
  • ajax和fetch的区别
  • java+springboot+mysql村务档案管理系统
  • windows查看/删除DNS缓存
  • 自动化测试之Junit
  • Spring Boot 整合MyBatis-Plus
  • CC++ 常用技巧
  • 【AndroidStudio】屏蔽小米打印
  • Tomcat的安装与介绍
  • 说点大实话丨知名技术博主 Kirito 测评云原生网关
  • 时序预测 | MATLAB实现SO-CNN-BiLSTM蛇群算法优化卷积双向长短期记忆神经网络时间序列预测
  • 简述docker的网络模式