python 项目利用uv管理python包依赖
安装
pip install uv
安装python环境
uv python install 3.12uv python list
初始化项目
uv init hello-world
cd hello-world
安装依赖
uv add requestsuv add 'requests==2.31.0'# pip install tokenizersuv add 'tokenizers==0.21.2' --index https://mirrors.aliyun.com/pypi/simple/
main.py 代码
Transformer结构–输入编码(BPE,PE)
import tiktokendef main():print("Hello from hello-world!")# 获取编码enc = tiktoken.get_encoding("cl100k_base")# 编码文本tokens = enc.encode("tiktoken是OpenAI开源的一个快速分词工具。它将一个文本字符串(例如“tiktoken很棒!”)和一个编码(例如“cl100k_base”)作为输入,然后将字符串拆分为标记列表。-----aa aa aa bb bb bb cc cc aabbcc aabb ")print(tokens) # 输出: [24912, 2375]# 解码文本text = enc.decode(tokens)print(text) # 输出: hello worldif __name__ == "__main__":main()
运行
uv run main.py