当前位置: 首页 > news >正文

大语言模型(LLMs)Tokenizers详解

Tokenizers是大语言模型(Large Language Models,LLMs)中用于将文本分割成基本单元(tokens)的工具。这些工具不仅影响模型的输入表示,还直接影响模型的性能和效率。以下是对Tokenizers的详细解释:

1. Tokenizers的作用

Tokenizers的主要作用是将自然语言文本转换为模型可以处理的数字形式。具体来说,Tokenizers执行以下任务:

  • 分割文本:将输入文本分割成有意义的单元(tokens)。
  • 编码tokens:将每个token映射到一个唯一的整数ID。
  • 生成嵌入:将整数ID转换为连续的向量(embeddings),作为模型的输入。
2. Tokenizers的类型

根据分割策略的不同,Tokenizers可以分为以下几种类型:

2.1 基于空格的Tokenizers

最简单的Tokenizers类型,直接按空格分割文本。这种方法简单快速,但无法处理复合词和未登录词。

from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer.tokenize("I love natural language processing.")
print(tokens)
# 输出: ['i', 'love', 'natural', 'language', 'processing', '.']
2.2 规则基础的Tokenizers

使用预定义的规则分割文本,如去除标点符号、处理大小写等。这种方法比基于空格的Tokenizers更灵活,但仍然有限。

from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize("I love natural language processing.")
print(tokens)
# 输出: ['I', 'love', 'natural', 'language', 'processing']
2.3 子词Tokenizers

子词Tokenizers将文本分割成子词单元,如字节对编码(BPE)、WordPiece和Unigram Language Model。这些方法可以有效处理未登录词,提高模型的泛化能力。

2.3.1 字节对编码(BPE)

通过统计频率合并频繁出现的字节对,逐步构建子词单元。

from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("gpt2")
tokens = tokenizer.tokenize("I love natural language processing.")
print(tokens)
# 输出: ['I', 'Ġlove', 'Ġnatural', 'Ġlanguage', 'Ġprocessing', '.']
2.3.2 WordPiece

类似于BPE,但选择合并操作时考虑对语言模型的增益。BERT模型使用WordPiece Tokenizer。

from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer.tokenize("I love natural language processing.")
print(tokens)
# 输出: ['i', 'love', 'natural', 'language', 'processing', '.']
2.3.3 Unigram Language Model

基于语言模型的方法,通过优化token集来最大化似然。

from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("xlnet-base-cased")
tokens = tokenizer.tokenize("I love natural language processing.")
print(tokens)
# 输出: ['▁I', '▁love', '▁natural', '▁language', '▁processing', '.']
3. Tokenizers的实现

许多大预言模型使用专门的Tokenizers库,如Hugging Face的Transformers库。这个库提供了多种Tokenizers的实现,支持不同的分割策略和模型。

from transformers import AutoTokenizer# 加载预训练的BERT Tokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")# 分割文本
tokens = tokenizer.tokenize("I love natural language processing.")
print(tokens)
# 输出: ['i', 'love', 'natural', 'language', 'processing', '.']# 编码tokens
encoded_input = tokenizer.encode("I love natural language processing.")
print(encoded_input)
# 输出: [101, 1045, 2293, 2784, 3693, 10118, 1012, 102]
4. Tokenizers的影响

Tokenizers的选择和实现对模型的性能有显著影响:

  • 词汇量:更大的词汇量可以提高模型的表达能力,但也会增加计算复杂度。
  • 未登录词处理:有效的Tokenizers策略可以更好地处理未登录词,提高模型的泛化能力。
  • 序列长度:合理的Tokenizers可以减少输入序列的长度,从而提高计算效率和内存使用。
5. 示例

假设我们有一个简单的句子:“I love natural language processing.”

使用不同的Tokenizers,这个句子可能会被分割为:

  • 基于空格的分割:["I", "love", "natural", "language", "processing."]
  • WordPiece(如BERT所用):["i", "love", "natural", "language", "processing", "."]
  • BPE(如GPT所用):["I", "Ġlove", "Ġnatural", "Ġlanguage", "Ġprocessing", "."]
总结

Tokenizers是大预言模型处理和生成文本的基础。通过将文本分割为有意义的单元,模型可以学习语言的结构和语义,从而实现复杂的语言理解和生成任务。选择合适的Tokenizers方法和策略对于提高模型的性能和效率至关重要。

http://www.lryc.cn/news/425904.html

相关文章:

  • 分支-快排/归并---1
  • 代码随想录训练营 Day32打卡 动态规划 part01 理论基础 509. 斐波那契数 70. 爬楼梯 746. 使用最小花费爬楼梯
  • 【智能流体力学】剖析ANSYS Fluent材料属性设定与边界条件
  • 微信小程序反编译工具
  • 线程基本概念
  • 在SpringBoot中执行后台任务
  • 【网络】UDP回显服务器和客户端的构造,以及连接流程
  • 【智能流体力学】ANSYS Fluent工作流程设置、求解和后处理详解
  • 最新UI六零导航系统源码 | 多模版全开源
  • K8S中使用英伟达GPU —— 筑梦之路
  • 2024-2025年最值得选的Java计算机毕业设计选题大全:800个热门选题
  • libnl教程(2):发送请求
  • 【软件测试】功能测试理论基础
  • 玩机进阶教程-----回读 备份 导出分区来制作线刷包 回读分区的写入与否 修改xml脚本
  • MongoDB 插入文档
  • 【内网】服务器升级nginx1.17.0
  • 歌曲爬虫下载
  • transformer-explainer
  • C#中的S7协议
  • 2024-08-16升级记录:使用Android RecyclerView控件显示列表型信息
  • 通义千问 ( 一 ) 基础实例
  • docker 修改数据目录
  • r4s软路由写入iStoreOS镜像
  • [C++][opencv]基于opencv实现photoshop算法灰度化图像
  • Emacs23.x版本之重要特性及用法实例(一百五十六)
  • 机器学习 第11章-特征选择与稀疏学习
  • Grok 2携AI图片生成重生
  • 使用Nexus搭建Maven私服仓库
  • 云计算day27
  • 关于HTTP HEAD介绍