当前位置: 首页 > news >正文

【机器学习基础】Transformer学习

Transformer学习

  • 梯度消失
  • FeedForward层

激活函数的主要作用是在网络中加入非线性变换

梯度消失

梯度爆炸

FeedForward层

Transformer结构:
Transformer结构主要分为两大部分:

  • 一是Encoder层结构:Encoder 的输入由 Input Embedding 和 Positional Embedding 求和输入Multi-Head-Attention,然后又做了一个ADD&Norm,再通过Feed Forward进行输出
  • 另一个则是Decoder层结构

在这里插入图片描述
FeedForward的输入:是Multi-Head Attention的输出做了残差连接和Norm之后得数据,然后FeedForward做了两次线性线性变换,为的是更加深入的提取特征。
在这里插入图片描述
它由两个线性变换组成,中间有一个 ReLU 激活
在Multi-Head Attention中,主要是进行矩阵乘法,即都是线性变换,而线性变换的学习能力不如非线性变换的学习能力强,FeedForward的计算公式如下:max相当于Relu

http://www.lryc.cn/news/450634.html

相关文章:

  • mysql如何不使用窗口函数,去统计出入库情况
  • uni-app canvas文本自动换行
  • 【设计模式-职责链】
  • Prompt:在AI时代,提问比答案更有价值
  • whatis命令:关于命令的简短描述
  • ICM20948 DMP代码详解(54)
  • RabbitMQ的应用问题
  • C++14:通过make_index_sequence实现将tuple转换为array
  • Linux中修改MySQL密码
  • 华为OD真题机试-英文输入法(Java)
  • 【React 】入门Day01 —— 从基础概念到实战应用
  • 2024年9月总结及随笔之丢卡
  • sql语法学习 sql各种语法 sql增删改查 数据库各种操作 数据库指令
  • 鸡兔同笼,但是线性代数
  • 01---java面试八股文——springboot---10题
  • 计算机毕业设计 二手图书交易系统的设计与实现 Java实战项目 附源码+文档+视频讲解
  • 【进阶OpenCV】 (3)--SIFT特征提取
  • HarmonyOS/OpenHarmony Audio 实现音频录制及播放功能
  • css 中 ~ 符号、text-indent、ellipsis、ellipsis-2、text-overflow: ellipsis、::before的使用
  • Activiti 工作流大致了解
  • 速盾:高防 CDN,网站安全的有力保障
  • 宝塔搭建nextcould 30docker搭建onlyoffic8.0
  • 【源码+文档+调试讲解】交通信息管理系统
  • 小阿轩yx-案例:Ansible剧本文件实践
  • 【ShuQiHere】深入理解微架构(Microarchitecture):LC-3 的底层实现 ️
  • Ubuntu24.04.1系统下VideoMamba环境配置
  • c++第十二章续(队列结构类模拟)
  • 数据集-目标检测系列-豹子 猎豹 检测数据集 leopard>> DataBall
  • 基于ESP8266—AT指令连接阿里云+MQTT透传数据(3)
  • redis的数据结构,内存处理,缓存问题