当前位置: 首页 > news >正文

深度学习中Transformer的简单理解

Transformer

网络结构

Transformer也是由编码器解码器组成的。

每一层Encoder编码器都由很多层构成的,编码器内又是self-attention前馈网络构成的。Self-attention是用来做加权平均,前馈网络用来组合。

但是decoder有点不同,多了一层Encoder-Decoder Attention。这一层的作用是关注全局,也就是不仅仅要关注编码,还要关注解码过程。在翻译中,也就是不仅仅关注翻译后的内容,还要关注翻译前的上下文内容

Self-attention又可以拆解成多个部分,就变成了Multi-Head Attention

最终得到了,整个网络结构。

数据流程

首先,把单词做统一长度的向量化,再嵌入位置信息,这样方便单词的统一,最终是同一长度(比如都是512位)

然后,再通过一个编码器,生成下一个编码。这里的Self-attention就是个零件(比如单词)自查表,它的作用就是通过权重标明相互之间的关系并且嵌入上下文信息

具体的方法是,每个向量先嵌入位置信息

再乘以三个训练好的向量Q、K和V矩阵

(我感觉,看上去像是一个数据库的查询操作)Q就是我提出了一个查询语句,K就是查询时候键值,两个相乘就得到了一个特征向量。V就像是数据库里面的值,所以,就像利用前面计算得到的特征向量分别计算V的相关性。

一个单词的K向量所有单纯的Q向量相乘,得到的权重就是Attention

然后,通过归一化后,利用softmax函数过滤掉不相干的单词。再乘以V向量,加权求和。最终得到输出向量

所有的步骤,就只需要知道,反正最后得到了单词的权重计算

用矩阵描述就是,先把X乘以三个矩阵。

然后,利用得到的Q和K,计算Z矩阵。

如果是Multihead-Attention,就会使用多个不同权重的矩阵,计算多次,得到多个Z。Multihead的作用是,消除QKV初始值的影响。那就像是八个不同的人做,更能够排除意外的影响。

最后通过一个加权平均,合成一个Z矩阵。

梳理

变形金刚要变形,从小车到机器人。

  1. 编码器一开始,先拆成零件。

  1. Self-attention就是给出一个变形说明书,说明零件之间的关系和权重。

  1. 左边编码把输入转换成了降维的向量零件说明书,K和V;右边解码,还需要看两个东西,一个自己的拆解说明书和与其他零件的项目关系;一个零件一个零件的组装。

  1. 最后,线性层把向量投影到一个很长的序列中,包含所有单词的序列。

  1. softmax做归一化,得到一个最大的概率。

参考资料:

【【Transformer模型】曼妙动画轻松学,形象比喻贼好记】 https://www.bilibili.com/video/BV1MY41137AK/?share_source=copy_web&vd_source=91d02e058149c97e25d239fb93ebef76

http://www.lryc.cn/news/210691.html

相关文章:

  • Java架构师系统安全
  • Stable Diffusion 图生图+ControlNet list index out of range
  • SylixOS BSP开发(七)
  • 多媒体应用设计师 第15章 多媒体素材的制作和集成
  • CentOS和Ubuntu命令行方式配置静态IP
  • 服务器快速申请免费SSL证书_2023年10月29日可用
  • ChatGPT专业术语及有效使用方法概述
  • ffmpeg 视频转图片 图片集转视频
  • Zabbix安装与部署
  • kafka代码示例
  • 文件夹批量改名:如何在文件夹名左边添加递增的自动编号
  • Flash(Animate)和木疙瘩的元件学习和理解
  • C#两个表多条件关联写法
  • VSCode-C/C++环境配置
  • 第八周实验记录
  • Spring Cloud Alibaba Seata 实现 SAGA 事物
  • npm install报错,解决记录
  • LSM树原理详解
  • Linux系统编程_网络编程:字节序、socket、serverclient、ftp 云盘
  • 队列(8.6)
  • 计算机网络 第四章网络层
  • 操作系统运行机制
  • mathtype7.4破解永久激活码
  • 66 内网安全-域横向批量atschtasksimpacket
  • PCI9054入门1:硬件引脚定义、时序、FPGA端驱动源码
  • 多媒体应用设计师 第17章 多媒体应用场景的技术应用和实现示例
  • react151618刷新几次的问题
  • 【Spring】IOC容器与Bean的常用属性配置
  • 2023年下半年 系统集成项目管理工程师 真题考点(一二三四批次)(10月28、29)(网友回忆版)
  • 读韩都衣舍,谈权力转移的激励制度