当前位置：首页 > news >正文

从零构建属于自己的GPT系列1：预处理模块(逐行代码解读)、文本tokenizer化

news 2025/9/17 11:07:06

1 训练数据

在本任务的训练数据中，我选择了金庸的15本小说，全部都是txt文件
在这里插入图片描述
数据打开后的样子

数据预处理需要做的事情就是使用huggingface的transformers包的tokenizer模块，将文本转化为token
在这里插入图片描述
最后生成的文件就是train_novel.pkl文件，就不用在训练的时候读txt文件了

数据预处理：preprocess.py

2 设置参数

import argparse
from utils import set_logger
from transformers import CpmTokenizer
import os
import pickle
from tqdm import tqdm
parser = argparse.ArgumentParser()
parser.add_argument('--vocab_file', default='vocab/chinese_vocab.model', type=str, required=False,help='词表路径')
parser.add_argument('--log_path', default='log/preprocess.log', type=str, required=False, help='日志存放位置')
parser.add_argument('--data_path', default='data/novel', type=str, required=False, help='数据集存放位置')
parser.add_argument('--save_path', default='data/train.pkl', type=str, required=False,help='对训练数据集进行tokenize之后的数据存放位置')
parser.add_argument('--win_size', default=200, type=int, required=False,help='滑动窗口的大小，相当于每条数据的最大长度')
parser.add_argument('--step', default=200, type=int, required=False, help='滑动窗口的滑动步幅')
args = parser.parse_args()

参数包
本项目utils.py中初始化参数函数
chinese pre-trained model Tokenizer包
系统包
pickle包，用于将 python 对象序列化（serialization）为字节流，或者将字节流反序列化为 Python 对象
进度条包
创建一个用于解析命令行参数的 ArgumentParser 对象
处理中文文本的变成token的预训练模型的模型文件存放位置
运行日志文件存放位置
数据集存放位置
对训练数据集进行tokenize之后的数据存放位置
滑动窗口的大小，相当于每条数据的最大长度
滑动窗口的滑动步幅

3 初始化日志对象

logger = set_logger(args.log_path)
def set_logger(log_path):logger = logging.getLogger(__name__)logger.setLevel(logging.INFO)formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')file_handler = logging.FileHandler(filename=log_path)file_handler.setFormatter(formatter)file_handler.setLevel(logging.INFO)logger.addHandler(file_handler)console = logging.StreamHandler()console.setLevel(logging.DEBUG)console.setFormatter(formatter)logger.addHandler(console)return logger