当前位置: 首页 > news >正文

Transfomer的各层矩阵

一、输入

输入一句话:Hello CYZLAB the inspired world

每个单词为一个token

二、Embedding

这里的词向量维度为6,矩阵的行数为token数,列数是词向量的维度

这列是注释不算
hello122694
CYZLAB222372
the222596
inspired132440
world431273

token数X词向量维度

三、位置嵌入

与Embedding相同

四、Q、K、V

 Q、K、V的权重:权重权重的行数要与词向量的维度相同,列数任意

如果:权重的权重的尺寸为:词向量的维度X7

Q、K、V的尺寸:token数X7(上面我们自定义的列数)

五、自注意力机制

  • 每个词之间的关系(Q*K^T):token数X token数

  • 关系与V的加权和(Q*K^T)*V:token数X7

六、添加线性层

让自注意机制的结果与Embedding的联合的矩阵可以按位相加 

线性层的权重尺寸:7X词向量的维度

线性层的转换结果:token数X词向量维度 

 七、add和归一化

尺寸:token数X词向量维度 

此后的尺寸都是这样的:token数X词向量维度 

http://www.lryc.cn/news/506477.html

相关文章:

  • 代码随想录第51天
  • 基础库httpx的使用
  • c++中如何保持结构体的线程安全?3D坐标的线程安全:从理论到最优解
  • Zabbix6.0升级为6.4
  • 答题考试系统v1.6.1高级版源码分享+uniapp+搭建测试环境
  • 【Lua热更新】下篇 -- 更新中
  • 射频测试入门学习(三)——程控仪器是怎样和电脑连接通信的
  • 并发控制之Semaphore
  • 第R3周:RNN-心脏病预测
  • 【数值特性库】入口文件
  • RestTemplate实时接收Chunked编码传输的HTTP Response
  • GIT区域介绍及码云+GIt配置仓库
  • 网络安全怎么学习
  • PugiXML,一个高效且简单的 C++ XML 解析库!
  • Linux设备树的驱动开发
  • 连锁?下沉?AI?2025年餐饮新活力!
  • Javascript中如何实现函数缓存?函数缓存有哪些应用场景?
  • 子页面访问父页面
  • 芯片级IO (Pad) Ring IP Checklist
  • 计算机毕业设计论文指导
  • Electron-Vue 开发下 dev/prod/webpack server各种路径设置汇总
  • Vue.js前端框架教程9:Vue插槽slot用法
  • 初学stm32 --- NVIC中断
  • Jest 入门指南:从零开始编写 JavaScript 单元测试
  • 【Java Web】Axios实现前后端数据异步交互
  • React 第十七节 useMemo用法详解
  • 鸿蒙项目云捐助第十五讲云数据库的初步使用
  • 如何构建一个可信的联邦RAG系统。
  • 【深度学习之三】FPN与PAN网络详解
  • Qt学习笔记第71到80讲