当前位置: 首页 > news >正文

Transformer学习笔记1

Transformer学习笔记1

翻译中,每个词翻译时更看重哪个原词?
在这里插入图片描述
在这里插入图片描述## 注意力机制的一般性原理

在这里插入图片描述

典型的注意力机制

hard

one-hot形式,但是太过专一

soft

都分布,但是太过泛滥
在这里插入图片描述
在这里插入图片描述

local attention

在这里插入图片描述

自注意力机制:self-attention

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
**加粗样式**

多头注意力

在这里插入图片描述

Transformer论文

全并行,因此需要位置编码注入
Layernorm
在这里插入图片描述

http://www.lryc.cn/news/13159.html

相关文章:

  • 软件测试简历个人技能和项目经验怎么写?(附项目资料)
  • C语言运算符优先级和结合性一览表
  • Java8介绍
  • Java 基准测试
  • 普通护照出国免签及落地签国家和地区
  • 20230219 质心和重心的区别和性质
  • maven多环境配置
  • 设计模式之中介模式与解释器模式详解和应用
  • 2023年全国最新交安安全员精选真题及答案1
  • chrome插件开发备忘录
  • 实例1:控制树莓派板载LED灯闪烁
  • 华为OD机试题 - 最大排列(JavaScript)
  • 手动创建 vue2 ssr 开发环境
  • RHCE-操作系统刻录工具
  • PHP面向对象01:面向对象基础
  • 《爆肝整理》保姆级系列教程python接口自动化(十八)--重定向(Location)(详解)
  • MySQL的索引、视图
  • 【JavaWeb】网络层协议——IP协议
  • 【Python学习笔记】41.Python3 多线程
  • Windows 版本ffmpeg编译概述
  • NETCore下CI/CD之自动化测试 (详解篇)
  • Hoeffding不等式剪枝方法
  • 【算法】数组中的重复数字问题
  • 数值方法笔记2:解决非线性方程
  • 基于SpringBoot的在线文档管理系统
  • 软件体系结构(期末复习)
  • [vue3] pinia的基本使用
  • 进程和线程详解
  • 《刀锋》读书笔记
  • nginx中的ngx_modules