当前位置: 首页 > news >正文

从零构建属于自己的GPT系列1:预处理模块(逐行代码解读)、文本tokenizer化

1 训练数据

在本任务的训练数据中,我选择了金庸的15本小说,全部都是txt文件
在这里插入图片描述
数据打开后的样子
在这里插入图片描述

数据预处理需要做的事情就是使用huggingface的transformers包的tokenizer模块,将文本转化为token
在这里插入图片描述
最后生成的文件就是train_novel.pkl文件,就不用在训练的时候读txt文件了

数据预处理:preprocess.py

2 设置参数

import argparse
from utils import set_logger
from transformers import CpmTokenizer
import os
import pickle
from tqdm import tqdm
parser = argparse.ArgumentParser()
parser.add_argument('--vocab_file', default='vocab/chinese_vocab.model', type=str, required=False,help='词表路径')
parser.add_argument('--log_path', default='log/preprocess.log', type=str, required=False, help='日志存放位置')
parser.add_argument('--data_path', default='data/novel', type=str, required=False, help='数据集存放位置')
parser.add_argument('--save_path', default='data/train.pkl', type=str, required=False,help='对训练数据集进行tokenize之后的数据存放位置')
parser.add_argument('--win_size', default=200, type=int, required=False,help='滑动窗口的大小,相当于每条数据的最大长度')
parser.add_argument('--step', default=200, type=int, required=False, help='滑动窗口的滑动步幅')
args = parser.parse_args()
  1. 参数包
  2. 本项目utils.py中初始化参数函数
  3. chinese pre-trained model Tokenizer包
  4. 系统包
  5. pickle包,用于将 python 对象序列化(serialization)为字节流,或者将字节流反序列化为 Python 对象
  6. 进度条包
  7. 创建一个用于解析命令行参数的 ArgumentParser 对象
  8. 处理中文文本的变成token的预训练模型的模型文件存放位置
  9. 运行日志文件存放位置
  10. 数据集存放位置
  11. 对训练数据集进行tokenize之后的数据存放位置
  12. 滑动窗口的大小,相当于每条数据的最大长度
  13. 滑动窗口的滑动步幅

3 初始化日志对象

logger = set_logger(args.log_path)
def set_logger(log_path):logger = logging.getLogger(__name__)logger.setLevel(logging.INFO)formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')file_handler = logging.FileHandler(filename=log_path)file_handler.setFormatter(formatter)file_handler.setLevel(logging.INFO)logger.addHandler(file_handler)console = logging.StreamHandler()console.setLevel(logging.DEBUG)console.setFormatter(formatter)logger.addHandler(console)return logger
  1. 选择日志路径,调用日志函数
  2. 创建 logger 对象
  3. 设置日志级别为’logging.INFO’
  4. 创建格式化器 formatter
  5. 创建文件处理器file_handler并指定了日志文件的路径为log_path
  6. 设置处理器的日志级别为 logging.INFO
  7. 添加文件处理器 file_handler 到创建的 logger 对象中
  8. 创建控制台处理器 console,用 logging.StreamHandler() 创建一个将日志输出到控制台的处理器
  9. 设置其日志级别为 logging.DEBUG
  10. 将格式化器 formatter 应用到这个控制台处理器上
  11. 控制台处理器 console 添加到 logger 对象中
  12. 返回了这个配置好的 logger 对象
http://www.lryc.cn/news/245905.html

相关文章:

  • STM32内存介绍
  • Qt::Window 、Qt::Tool是 Qt 框架中的一个窗口标志(Window Flag),用于指定窗口的类型和行为
  • 东胜物流软件 SQL注入漏洞复现
  • 第1章 爬虫基础
  • Python教程---序列--序列修改元素
  • Linux 中的 ls 命令使用教程
  • Kubernetes基础入门:Kubernetes的有关概述
  • C# 无法将“int[]“类型隐式转换为“int?[]“,无法将“string[]“类型隐式转换为“string?[]“
  • 趣链科技,HyperChain
  • 吴恩达《机器学习》9-7-9-8:综合起来、自主驾驶
  • HTTP/HTTPS
  • C语言中#ifndef的头文件保护用法和宏定义用法
  • 141.【Git版本控制-本地仓库-远程仓库-IDEA开发工具全解版】
  • OpenCV快速入门:移动物体检测和目标跟踪
  • 针对操作系统漏洞的反馈方法
  • 常见的软件测试用例设计方法有哪些?
  • 【24届校招】c++选手还有机会吗?如何选择更好的出路?
  • hvigor ERROR: Failed :entry:default@ProcessLibs...【鸿蒙开发-BUG已解决】
  • 由于没有公钥,无法验证下列签名: NO_PUBKEY
  • vue3 for循环创建的多个e-form 添加校验
  • 【虚拟机Ubuntu 18.04配置网络】
  • MySQL 中的 JSON_CONTAINS 函数详解
  • 详细解答T-SNE程序中from sklearn.manifold import TSNE的数据设置,包括输入数据,绘制颜色的参数设置,代码复制可用!!
  • ClickHouse中的物化视图
  • 界面组件Telerik UI for WinForms中文教程 - 创建明暗模式的桌面应用
  • C语言:输入一行字符,分别统计出其中英文字母、空格、数字和其他字符的个数
  • 王者荣耀java版
  • 前缀和与差分
  • 力扣hot100 滑动窗口最大值 单调队列
  • mysql MHA配置文件