当前位置: 首页 > news >正文

Transformer机制学习笔记

学习自https://www.bilibili.com/video/BV1J441137V6

RNN,CNN网络的缺点

在这里插入图片描述

难以平行化处理,比如我们要算b4b^4b4,我们需要一次将a1a^1a1~a4a^4a4依次进行放入网络中进行计算。

于是有人提出用CNN代替RNN
在这里插入图片描述
三角形表示输入,b1b^1b1的结果是由a1,a2a^1,a^2a1,a2产生。
a1a^1a1~a4a^4a4可以同时并行输入到CNN中。
但是,这么做的话可以表示的内容非常有限,解决方法是再往上继续建造。
在这里插入图片描述
这样的话,蓝色的输入,就相当于获得了a1a^1a1~a4a^4a4的输入。
CNN的优点就是可以同时计算,缺点就是需要叠很多层

self-Attention层

self-Attention层要做的就是,既能达到RNN的功能,同时又能像CNN一样平行化。
在这里插入图片描述
在这里插入图片描述

self-attention层运作步骤

  • 拿每个q与每个k进行attention运算
    在这里插入图片描述
    dddq,kq,kq,k的维度,这个可以理解为是为了平衡维度带来的影响,因为维度越大,点乘出来的结果就会相应的较大,所以除以维度可以消除一部分影响。
  • 然后再统一做一下softmax
    在这里插入图片描述
    在这里插入图片描述
  • 随后a^\hat{a}a^再和vvv相乘
    在这里插入图片描述
    在这里插入图片描述
    这样,计算b1b^1b1既可以并行计算,也能获取到x1x^1x1~x4x^4x4的全部数据。

如何并行化
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可以把上一层的内容统统放入到矩阵中,进行一次矩阵乘法即可算出下一层。而矩阵乘法可以用GPU加速。

在这里插入图片描述
q,k,vq,k,vq,k,v也是可以用多层的。

Position Encoding

在这里插入图片描述
实际上,xxx序列的位置信息是不重要的,因为每个位置都有一个独一无二的eie^iei向量与它相加,依次来表示位置信息。这个eie^iei不是从数据中学到的,而是人为赋值的。

Sequence To Sequence

在这里插入图片描述
在Sequence To Sequence模型中,就可以用self-Attention层来代替RNN或者CNN。

Transformer

在这里插入图片描述

http://www.lryc.cn/news/6815.html

相关文章:

  • 1、第一个CUDA代码:hello gpu
  • UG二次开发装配篇 添加/拖动/删除组件方法的实现
  • 【ros bag 包的设计原理、制作、用法汇总】
  • Linux网络:聚合链路技术
  • 2023年数据安全的下一步是什么?
  • 在浏览器输入URL后发生了什么?
  • Dubbo学习
  • CMMI-立项管理流程
  • 看《狂飙》读人生,致敬2023!
  • Web自动化测试——Junit5篇
  • Seata源码学习(二)-源码入口
  • 2023如何选购适合游戏设计的电脑硬件
  • springboot maven项目集成阿里p3c-pmd插件使用
  • PowerJob的server启动都经历了哪些?代码不多也很简单,咱们来逐一理解。
  • 分享好玩的h5小游戏制作步骤_怎么做h5微信小游戏
  • 代理模式--设计模式
  • 【RSTP的原理和配置】
  • Doom流量回放工具导致的测试环境服务接口无响应的排查过程
  • 2023年留学基金委(CSC)西部/地方合作项目选派办法及解读
  • ILSSI国际研讨会将为您呈现六西格玛技术的未来与前景
  • KDJ日周月金叉共振指标
  • 线程私有变量ThreadLocal详解
  • 如何保证数据库和缓存双写一致性
  • 一文搞懂:JS严格模式“use strict”
  • Linux的ACL(扩展权限)规划:setfacl、getfacl
  • HTML预格式化文本pre标签
  • 基于机器学习的心脏病预测方法(11)——梯度提升机(GBM)
  • Linux多版本python切换以及多版本pip对应 (cloud studio Ubuntu16.04)
  • 【并发编程】LockSupport源码详解
  • 元宇宙之声:新鸿基公司