当前位置: 首页 > news >正文

认识Transformer:入门知识

视频链接:
https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=60

文章目录

      • Self-Attention layer
      • Multi-head self-attention
      • Positional encoding
      • Seq2Seq with Attention
      • Transformer
      • Universal Transformer

Seq2Seq

RNN不容易被平行化
提出用CNN来代替RNN,CNN 可以平行化,但是需要的层数比较深,才能看完所有的输入内容。

Self-Attention layer

在这里插入图片描述
b1 到b4 是可以同时被算出。
可以用来取代RNN。

来源: Attention is all you need

在这里插入图片描述
然后用每一个a 去对每个k 做attention

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
加速的矩阵乘法过程
在这里插入图片描述

Multi-head self-attention

不同的head 可以关注不同的内容,达到一个更好的注意力效果。
在这里插入图片描述

Positional encoding

self-attention 没有考虑位置信息。
因此需要再ai的同时加ei,表示位置信息,有人工控制。

在这里插入图片描述

Seq2Seq with Attention

在这里插入图片描述

Transformer

在这里插入图片描述

在这里插入图片描述

Universal Transformer

在这里插入图片描述

http://www.lryc.cn/news/131302.html

相关文章:

  • 《TCP IP网络编程》第二十四章
  • 【AI】文心一言的使用
  • CSAPP Lab2:Bomb Lab
  • Java中使用流将两个集合根据某个字段进行过滤去重?
  • 自动驾驶HMI产品技术方案
  • Git判断本地是否最新
  • Spring 整合RabbitMQ,笔记整理
  • Lua 语言笔记(一)
  • 【Redis】什么是缓存穿透,如何预防缓存穿透?
  • LeetCode128.最长连续序列
  • Datawhale Django入门组队学习Task02
  • PCTA 认证考试高分通过经验分享
  • [Python]pytorch与C交互
  • C语言,静态变量static基础及使用实列
  • 2023.8.19-2023.8.XX 周报【人脸3D+虚拟服装方向基础调研-Cycle Diffusion\Diffusion-GAN\】更新中
  • 微表情识别(Python编程,cnn模型)
  • More Effective C++学习笔记(2)
  • 零售行业供应链管理核心KPI指标(三)
  • 广州华锐互动:奶牛难产原因及救治VR仿真实训系统
  • 神经网络基础-神经网络补充概念-62-池化层
  • 第8章:集成学习
  • 设计HTML5列表和超链接
  • React Native 环境搭建
  • 【uniapp】中 微信小程序实现echarts图表组件的封装
  • AgentBench::AI智能体发展的潜在问题(三)
  • zookeeper-安装部署
  • jvm-运行时数据区概述及线程
  • 石头IT
  • R语言dplyr包select函数删除dataframe数据中包含指定字符串内容的数据列(drop columns in dataframe)
  • [GitOps]微服务版本控制:使用ArgoCD 部署Grafana Loki