当前位置: 首页 > news >正文

使用ChatGLMTokenizer处理json格式数据

我下载了一些中文wikipedia数据,准备采用ChatGLMTokenizer对齐进行清洗,整理为预训练语料。

import numpy as np
import json
from tqdm import tqdm
from chatglm_tokenizer.tokenization_chatglm import ChatGLMTokenizertokenizer = ChatGLMTokenizer(vocab_file='./chatglm_tokenizer/tokenizer.model')with open('./data/wikipedia-cn-20230720-filtered.json') as f:data = json.load(f)print(data[0:3])data = data[0:3]doc_ids = []for line in tqdm(data):text = line['completion']text_id = tokenizer.encode(text, add_special_tokens=False)text_id.append(tokenizer.special_tokens['<eos>'])# doc_ids = doc_ids+text_iddoc_ids.append(doc_ids)doc_ids = np.array(doc_ids, dtype=np.uint16)with open('./test.bin', 'wb') as f:f.write(doc_ids.tobytes())

其中,chatglm_tokenizer目录下的文件如下:
在这里插入图片描述

http://www.lryc.cn/news/157427.html

相关文章:

  • Redis基础特性及应用练习-php
  • Numpy知识点回顾与学习
  • H.264视频编码推荐的分辨率和码率配置表
  • Greenplum 实用工具-gpaddmirrors
  • 详解 Cent OS JDK 8.0 安装配置
  • 代理IP与网络安全在跨境电商中的关键作用
  • Kafka3.0.0版本——消费者(消费方式)
  • uni-app rich-text组件富文本图片展示不全问题
  • 文件包含漏洞学习小结
  • 同时安装python2和3解决方案
  • 通过jr-qrcode生成二维码并下载到客户端本地(Vue)
  • 命令执行漏洞(附例题)
  • iOS开发Swift-类型转换
  • python基础爬虫反爬破解
  • Maven 必备技能:MAC 系统下 JDK和Maven 安装及环境变量配置详细讲解
  • electron笔记无边框窗口、DLL调用、DLL函数返回指针
  • 递归算法学习——黄金矿工,不同路径III
  • pg 创建分区表 --chatGpt
  • 长城网络靶场,第一题笔记
  • el-form表单中不同数据类型对应的时间格式化和校验规则
  • Python代码雨
  • java.util.Optional
  • 微服务--Seata(分布式事务)
  • 发光太阳聚光器的蒙特卡洛光线追踪研究(Matlab代码实现)
  • (涨知识)-圣诞灯串类产品出口都需要做哪些认证?
  • ROS地图/像素坐标描点调试【Python源码实现】
  • 2023年7月京东笔记本电脑行业品牌销售排行榜(京东数据平台)
  • 用户忠诚度:小程序积分商城的用户保持方法
  • [前端] 使用lerna version更新版本号
  • winform嵌入浏览器 webView2