当前位置：首页 > news >正文

Transformer学习笔记1

news 2025/9/9 11:45:25

Transformer学习笔记1

翻译中，每个词翻译时更看重哪个原词？
在这里插入图片描述
## 注意力机制的一般性原理

在这里插入图片描述

典型的注意力机制

hard

one-hot形式，但是太过专一

soft

都分布，但是太过泛滥
在这里插入图片描述

local attention

在这里插入图片描述

自注意力机制：self-attention

在这里插入图片描述

**加粗样式**

多头注意力

在这里插入图片描述

Transformer论文

全并行，因此需要位置编码注入
Layernorm
在这里插入图片描述

http://www.lryc.cn/news/13159.html

相关文章：

软件测试简历个人技能和项目经验怎么写？（附项目资料）

C语言运算符优先级和结合性一览表

Java 基准测试

普通护照出国免签及落地签国家和地区

20230219 质心和重心的区别和性质

maven多环境配置

设计模式之中介模式与解释器模式详解和应用

2023年全国最新交安安全员精选真题及答案1

chrome插件开发备忘录

实例1：控制树莓派板载LED灯闪烁

华为OD机试题 - 最大排列（JavaScript）

手动创建 vue2 ssr 开发环境

RHCE-操作系统刻录工具

PHP面向对象01：面向对象基础

《爆肝整理》保姆级系列教程python接口自动化（十八）--重定向（Location）（详解）

MySQL的索引、视图

【JavaWeb】网络层协议——IP协议

【Python学习笔记】41.Python3 多线程

Windows 版本ffmpeg编译概述

NETCore下CI/CD之自动化测试（详解篇）

Hoeffding不等式剪枝方法

【算法】数组中的重复数字问题

数值方法笔记2：解决非线性方程

基于SpringBoot的在线文档管理系统

软件体系结构（期末复习）

[vue3] pinia的基本使用

进程和线程详解

《刀锋》读书笔记

nginx中的ngx_modules