当前位置: 首页 > news >正文

Token 和 Embedding的关系

# Token与Embedding的关系
## **Token**
Token是模型处理文本时的最小离散单元,可以是一个词、子词(subword)或符号(如标点)。
大模型(如GPT、BERT)通过分词器(Tokenizer)将原始文本拆分成Token序列。
分词方式:
词级分词(如"hello"作为一个Token)。
子词分词(如BERT的WordPiece、GPT的Byte-Pair Encoding):
例如,"unhappy" → "un" + "happy"(两个Token),解决罕见词和词表膨胀问题。
词表(Vocabulary):模型所有可能Token的集合(如GPT-3的词表约5万个Token)。
数值化:每个Token被映射为词表中的整数索引(如"cat"→ID 5432)。
## Embedding
Embedding是将Token映射到一个连续向量空间的数学表示,本质是一个高维向量(如GPT-3的嵌入维度是12288)。
它捕捉Token的语义和语法特征(例如,"king"和"queen"的向量方向相似)。
生成方式:
通过嵌入层(Embedding Layer)实现,是一个可学习的矩阵,行数=词表大小,列数=嵌入维度。
例如,Token ID=5432 → 查表得到对应的d维向量(如[0.2, -0.5, ..., 1.4])。

## Token和 Embedding的关系
```java
原始文本 → Token化(离散ID) → Embedding层(连续向量) → 模型计算
```
例如:"I love NLP" → Token IDs `[32, 156, 5432]` → 3个`d`维向量 → 输入Transformer。
- Token是**标量**(一个整数),Embedding是**向量**(如`[d×1]`)。
- 模型输入的最终形式是一个**序列的Embedding矩阵**(如`[序列长度×嵌入维度]`)。

http://www.lryc.cn/news/583530.html

相关文章:

  • 通过Tcl脚本命令:set_param labtools.auto_update_hardware 0
  • AI Agent:我的第一个Agent项目
  • 在 macOS 上安装与自定义 Oh My Zsh:让终端美观又高效 [特殊字符]
  • css支持if else
  • WIndows 编程辅助技能:格式工厂的使用
  • 单片机STM32F103:DMA的原理以及应用
  • React面试高频考点解析
  • 【LeetCode 热题 100】21. 合并两个有序链表——(解法二)递归法
  • Spark流水线数据对比组件
  • 第6章应用题
  • 01-elasticsearch-搭个简单的window服务-ik分词器-简单使用
  • 【01】MFC入门到精通—— MFC新建基于对话框的项目 介绍(工作界面、资源视图 、类视图)
  • 【前端】ikun-markdown: 纯js实现markdown到富文本html的转换库
  • Java SE 实现简单的图书管理系统(完善菜单操作)
  • 【DOCKER】-3 数据持久化
  • 项目进度受制于资源分配,如何动态调配资源
  • 20250709: WSL+Pycharm 搭建 Python 开发环境
  • PHP 基于模板动态生成 Word 文档:图片 + 表格数据填充全方案(PHPOffice 实战)
  • 爬虫-数据解析
  • 20-C#构造函数--虚方法
  • 机器视觉之工业相机讲解
  • 【leetcode100】下一个排列
  • 题解:P13017 [GESP202506 七级] 线图
  • RAC-CELL(小区)处理
  • 射频前端的革新力量:ATR2057超低噪声放大器深度解析
  • C#基础篇(10)集合类之列表
  • AMIS全栈低代码开发
  • Claude Code 开发使用技巧
  • 一天一道Sql题(day05)
  • 双立柱式带锯床cad【1张总图】+设计说明书+绛重