当前位置: 首页 > news >正文

第九篇-自我任务数据准备

格式化自我意识数据用于ChatGLM微调

准备数据源

https://github.com/hiyouga/ChatGLM-Efficient-Tuning
cd data
self_cognition.json

代码self_process.py

#!/usr/bin/python
# -*- coding: UTF-8 -*- # 读取self_cognition自我认知解析并写入转换新文件import json# 读取self_cognition文件中的JSON列表
with open('self_cognition.json', 'r', encoding='utf-8') as f:data = json.load(f)# 处理content和summary
def process_data(item):# 将instruction对应到content,output对应到summaryitem['content'] = item['instruction'].replace(' ', '')item['summary'] = item['output'].replace(' <NAME>', 'AI小木').replace('<AUTHOR>', '小吕').replace(' ', '')return item# 将处理后的数据写入B文件
with open('self_cognition/train.json', 'w', encoding='utf-8') as f:for item in data:process_item = process_data(item)# 将一行JSON对象写入文件f.write('{"content":"'+process_item['content']+'","summary":"'+process_item['summary']+'"}')f.write('\n')

名称:AI小木
作者:小吕

可以自己替换

执行处理

python self_process.py

文件配置修改

我的train.json与dev.json一致,后期再处理吧

data/
├── dataset_info.json
└── self_cognition/
├── dev.json
└── train.json
接下来,我们修改 dataset_info.json,增加以下两列内容,从而使训练框架能够识别自定义数据集。

,
"self_cognition_train": {"file_name": "self_cognition/train.json","columns": {"prompt": "content","query": "","response": "summary","history": ""}
},
"self_cognition_dev": {"file_name": "self_cognition/dev.json","columns": {"prompt": "content","query": "","response": "summary","history": ""}
}
http://www.lryc.cn/news/105913.html

相关文章:

  • 2023.8.1号论文阅读
  • webpack优化前端框架性能
  • Unity UGUI的Outline(描边)组件的介绍及使用
  • 爆改vue3 setup naiveui可编辑table
  • 功率放大器的种类有哪三种类型
  • HDFS 分布式存储 spark storm HBase
  • Vue3文字实现左右和上下滚动
  • Docker Sybase修改中文编码
  • 【SpringCloud Alibaba】(六)使用 Sentinel 实现服务限流与容错
  • mysql的主从复制
  • 【Golang 接口自动化03】 解析接口返回XML
  • Java+bcprov库实现对称和非对称加密算法
  • 国内最大Llama开源社区发布首个预训练中文版Llama2
  • Qt应用开发(基础篇)——滑块类 QSlider、QScrollBar、QDial
  • 【3-D深度学习:肺肿瘤分割】创建和训练 V-Net 神经网络,并从 3D 医学图像中对肺肿瘤进行语义分割研究(Matlab代码实现)
  • MongoDB文档--架构体系
  • GEE学习03-Geemap配置与安装,arcgis pro自带命令提示符位置等
  • 软件测试面试总结——http协议相关面试题
  • 大数据与okcc呼叫中心融合的几种方式
  • WAF绕过-工具特征-菜刀+冰蝎+哥斯拉
  • 使代码减半的5个Python装饰器
  • 线程池的线程回收问题
  • 盘点那些不想骑车的原因和借口。
  • 【深度学习Week3】ResNet+ResNeXt
  • Visual Studio 2022的MFC框架全面理解
  • C# 消息队列 (MSMQ) 进程之间的通信
  • 算法练习(4):牛客在线编程05 哈希
  • 数字信号处理——频谱分析
  • [软件工程] 架构映射战略设计方案模板
  • Springboot MongoDB 事务