当前位置: 首页 > news >正文

【学习心得】Python好库推荐——tiktoken

一、tiktoken是什么?

        tiktoken是一个快速BPE分词器,是由 OpenAI 开发的一个用于文本处理的 Python 库,主要用于将文本编码为数字序列(称为 "tokens"),或将数字序列解码为文本。这一过程被称为 "tokenization"(分词)。

补充:BPE是什么?

Byte Pair Encoding (BPE) 是一种流行的子词(subword)分割技术。BPE 的主要目的是在词汇表大小和模型性能之间找到一个平衡点,它允许模型处理未登录词(即训练集中未出现过的单词)的能力增强,同时减少词汇表的大小,提高模型的效率。

二、tiktoken有什么用?怎么用?

# 先安装
pip install tiktoken

(1)文本编码与解码

        tiktoken的主要功能是进行文本编码和解码。 它可以将输入的文本转换为模型可以理解的数字序列(tokens)还可以反过来,将模型输出的数字序列转换回人类可读的文本。

import tiktoken# 创建一个编码器
encoder = tiktoken.get_encoding("cl100k_base")# 编码文本
text = "Hello, world!"
tokens = encoder.encode(text)
print(tokens)  # 输出: [15496, 1917, 0]# 解码数字序列
decoded_text = encoder.decode(tokens)
print(decoded_text)  # 输出: "Hello, world!"

(2)统计Tokens数量

        tiktoken不仅可以用于文本的编码和解码,还可以用来统计文本中 tokens 的数量。这对于许多自然语言处理任务来说是非常有用的,特别是在处理模型输入时,了解输入的长度可以帮助优化模型的性能和资源使用。

import tiktoken# 创建一个编码器
# encoder = tiktoken.get_encoding("cl100k_base")
encoder = tiktoken.encoding_for_model("gpt-4o")  # 如果你是调用gpt-4o模型你还可以这样使用# 输入文本
text = "Hello, world! This is a test sentence to count the number of tokens."# 编码文本
tokens = encoder.encode(text)# 统计 tokens 数量
num_tokens = len(tokens)print(f"tokens的数量: {num_tokens}")
http://www.lryc.cn/news/483686.html

相关文章:

  • MacBook不额外安装软件,怎样投屏到安卓手机上?
  • flink sql + kafka + mysql 如何构建实时数仓
  • Go语言开发基于SQLite数据库实现用户表查询详情接口(三)
  • (11)(2.1.7) FETtec OneWire ESCs(二)
  • Springboot maven常见依赖、配置文件笔记
  • Ceph后端两种存储引擎介绍
  • C++入门基础知识140—【关于C++ 类构造函数 析构函数】
  • 基于标签相关性的多标签学习
  • macOS系统下使用SQLark连接达梦数据库
  • 爬虫如何解决短效代理被封的问题?
  • Jmeter基础篇(22)服务器性能监测工具Nmon的使用
  • Spring Boot 集成 RabbitMQ:消息生产与消费详解
  • JSON-RPC-CXX深度解析:C++中的远程调用利器
  • 【后端速成Vue】模拟实现翻译功能
  • 人脸识别技术:从算法到深度学习的全面解析
  • WPF学习之路,控件的只读、是否可以、是否可见属性控制
  • 植物神经紊乱不用怕,科学锻炼助你找回平衡✨
  • shell 100例
  • CSS教程(二)- CSS选择器
  • Ubuntu20.04 解决一段时间后键盘卡死 输入延迟很大的问题 ubuntu
  • http(s)接口设计注意事项
  • Font Awesome Web 应用图标
  • bridge-vlan
  • 【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
  • 华为云前台展示公网访问需要购买EIP,EIP流量走向
  • 排序算法 -插入排序
  • 如何使用.bat实现电脑自动重启?
  • 使用VSCode远程连接服务器并解决Neo4j无法登陆问题
  • 使用React和Vite构建一个AirBnb Experiences克隆网站
  • HBase压测 ycsb