当前位置: 首页 > news >正文

Token Embedding(词嵌入)和Positional Encoding(位置编码)的矩阵形状关系及转换过程

        在从零开始构建一个小型字符级语言模型时,简化的实现步骤是:数据准备→模型架构设计→训练→评估与生成模型架构设计阶段的流程如下:

图1 模型架构设计阶段的流程

        包含了输入层、嵌入层、解码器层和输出层。其中在嵌入层中包括了Token Embedding(词嵌入)和Positional Encoding(位置编码),那么这两个矩阵具体是如何实现的,以及它们之间有什么关系呢?

        在Transformer模型中,Token Embedding(词嵌入)和Positional Encoding(位置编码)的矩阵形状关系及转换过程如下:

        本文的前置基础,Windows安装Hugging Face Transformers库,看我的文章:Windows安装Hugging Face Transformers库并实现案例训练的详细教程_ktransformers本地windows安装部署-CSDN博客

从零开始构建一个小型字符级语言模型的详细教程(基于Transformer架构)之一数据准备-CSDN博客

一、矩阵形状的对应关系

1.Token Embedding矩阵

        形状: (vocab_size=50, d_model=128)

        作用: 将字符索引(0~49)映射到128维语义向量空间

        示例:字符'h'(索引0)→ 向量[0.2, -1.3, ..., 0.7](128维)

        这里是原始文本提取出来的唯一字符编码成词汇表,再将词汇表中的字符映射到128维语义向量空间示意图如下:

图2 将所有唯一字符转换为向量表示

2. Positional Encoding矩阵

        形状: (block_size=64, d_model=128)

http://www.lryc.cn/news/539928.html

相关文章:

  • 多个用户如何共用一根网线传输数据
  • U-Net 与深度学习的完美结合:图像分割的高效解决方案
  • nginx ngx_http_module(9) 指令详解
  • 【从0做项目】Java搜索引擎(4)——性能优化~烧脑~~~
  • 【HarmonyOS Next】鸿蒙应用进程和线程详解
  • 【前端ES】ECMAScript 2023 (ES14) 引入了多个新特性,简单介绍几个不为人知但却好用的方法
  • 【EndNote】WPS 导入EndNote 21
  • 网上购物|基于SprinBoot+vue的网上购物系统(源码+数据库+文档)
  • AI 语言模型发展史:统计方法、RNN 与 Transformer 的技术演进
  • Pycharm中查找与替换
  • 有向图的强连通分量: Kosaraju算法和Tarjan算法详解
  • mac相关命令
  • 代码随想录算法训练营第六天| 242.有效的字母异位词 、349. 两个数组的交集、202. 快乐数 、1. 两数之和
  • dify实现分析-rag-关键词索引的实现
  • 【小白学HTML5】一文讲清常用单位(px、em、rem、%、vw、vh)
  • Fastgpt学习(5)- FastGPT 私有化部署问题解决
  • ubuntu下安装TFTP服务器
  • 深入解析 iText 7:从 PDF 文档中提取文本和图像
  • Rust编程语言入门教程 (六)变量与可变性
  • 事务--实操演示
  • PHP是如何并行异步处理HTTP请求的?
  • 【Spring详解一】Spring整体架构和环境搭建
  • 在 Vue 3 中使用 Lottie 动画:实现一个加载动画
  • 深度解析:使用 Headless 模式 ChromeDriver 进行无界面浏览器操作
  • MySQL 主从复制原理及其工作过程
  • 计算机网络抄手 运输层
  • 字符串函数和结构题内存对齐
  • 【嵌入式Linux应用开发基础】特殊进程
  • 深度学习pytorch之19种优化算法(optimizer)解析
  • rust笔记5-derive属性2