当前位置：首页 > news >正文

Token Embedding（词嵌入）和Positional Encoding（位置编码）的矩阵形状关系及转换过程

news 2025/8/15 6:51:10

在从零开始构建一个小型字符级语言模型时，简化的实现步骤是：数据准备→模型架构设计→训练→评估与生成。模型架构设计阶段的流程如下：

图1 模型架构设计阶段的流程

包含了输入层、嵌入层、解码器层和输出层。其中在嵌入层中包括了Token Embedding（词嵌入）和Positional Encoding（位置编码），那么这两个矩阵具体是如何实现的，以及它们之间有什么关系呢？

在Transformer模型中，Token Embedding（词嵌入）和Positional Encoding（位置编码）的矩阵形状关系及转换过程如下：

本文的前置基础，Windows安装Hugging Face Transformers库，看我的文章：Windows安装Hugging Face Transformers库并实现案例训练的详细教程_ktransformers本地windows安装部署-CSDN博客

从零开始构建一个小型字符级语言模型的详细教程（基于Transformer架构）之一数据准备-CSDN博客

一、矩阵形状的对应关系

1.Token Embedding矩阵

形状: (vocab_size=50, d_model=128)

作用: 将字符索引（0~49）映射到128维语义向量空间

示例：字符'h'（索引0）→ 向量[0.2, -1.3, ..., 0.7]（128维）

这里是原始文本提取出来的唯一字符编码成词汇表，再将词汇表中的字符映射到128维语义向量空间。示意图如下：

图2 将所有唯一字符转换为向量表示

2. Positional Encoding矩阵

形状: (block_size=64, d_model=128)

查看全文

http://www.lryc.cn/news/539928.html

多个用户如何共用一根网线传输数据

U-Net 与深度学习的完美结合：图像分割的高效解决方案

nginx ngx_http_module(9) 指令详解

【从0做项目】Java搜索引擎（4）——性能优化~烧脑~~~

【HarmonyOS Next】鸿蒙应用进程和线程详解

【前端ES】ECMAScript 2023 (ES14) 引入了多个新特性，简单介绍几个不为人知但却好用的方法

【EndNote】WPS 导入EndNote 21

网上购物|基于SprinBoot+vue的网上购物系统(源码+数据库+文档)

AI 语言模型发展史：统计方法、RNN 与 Transformer 的技术演进

Pycharm中查找与替换

有向图的强连通分量: Kosaraju算法和Tarjan算法详解

dify实现分析-rag-关键词索引的实现

【小白学HTML5】一文讲清常用单位（px、em、rem、%、vw、vh）

Fastgpt学习（5）- FastGPT 私有化部署问题解决

ubuntu下安装TFTP服务器

深入解析 iText 7：从 PDF 文档中提取文本和图像

Rust编程语言入门教程（六）变量与可变性

事务--实操演示

PHP是如何并行异步处理HTTP请求的？

【Spring详解一】Spring整体架构和环境搭建

在 Vue 3 中使用 Lottie 动画：实现一个加载动画

深度解析：使用 Headless 模式 ChromeDriver 进行无界面浏览器操作

深度学习pytorch之19种优化算法（optimizer）解析

rust笔记5-derive属性2

一、矩阵形状的对应关系

1.Token Embedding矩阵

2. Positional Encoding矩阵

相关文章：