当前位置: 首页 > news >正文

Python:jsonl文件转json文件,并做字段处理

在使用LLaMA-Factoryshenzhi-wang/Llama3-8B-Chinese-Chat(https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat/tree/main)进行微调时,希望使用COIG-CQIA的小红书数据集(https://huggingface.co/datasets/m-a-p/COIG-CQIA/tree/main/xhs)。

由于该数据集为jsonl格式,所以使用python转为json格式。

原格式:

{"instruction": "写一篇小红书风格的帖子,标题是免费送!超耐摔高档行李箱+送贴纸箱套", "input": "", "output": "免费送!爱麦士行李箱实力宠粉![偷笑R]\n✨这款奶白行李箱颜值超高,细磨砂工艺,防刮耐脏容易打理。\n轮子超级顺滑、静音,拖着不累💫\n💖抑菌里布,没有异味,很多隔层真的很实用\n✨✨✨✨✨\n👉8月27日下午3点小红书官方平台自动开奖\n👉中奖奖品:爱麦士行李箱\n抽奖活动规则.\n1⃣活动时间: 8月7日00:00:00-8月27日00:00:00\n2⃣开奖时间: 8月27日15:00:00\n3⃣奖品数量: 3份\n4⃣中奖条件:关注本品牌号;点赞收藏本笔记\n5⃣中奖者将随机抽取,由系统发送中奖通知\n其他规则:一定要点击笔记左下角的【报名】才能参加此活动哦,中奖后记得在7天内填写收货信息,逾期视为放弃机会~冲了!💞\n", "task_type": {"major": ["文本生成"], "minor": ["小红书风格文本"]}, "domain": ["社交媒体"], "metadata": "暂无元数据信息", "answer_from": "human", "human_verified": false, "copyright": "暂无版权及作者信息"}
{"instruction": "写一篇小红书风格的帖子,标题是免费送!超耐摔高档行李箱+送贴纸箱套", "input": "", "output": "免费送!爱麦士行李箱实力宠粉![偷笑R]\n✨这款奶白行李箱颜值超高,细磨砂工艺,防刮耐脏容易打理。\n轮子超级顺滑、静音,拖着不累💫\n💖抑菌里布,没有异味,很多隔层真的很实用\n✨✨✨✨✨\n👉8月27日下午3点小红书官方平台自动开奖\n👉中奖奖品:爱麦士行李箱\n抽奖活动规则.\n1⃣活动时间: 8月7日00:00:00-8月27日00:00:00\n2⃣开奖时间: 8月27日15:00:00\n3⃣奖品数量: 3份\n4⃣中奖条件:关注本品牌号;点赞收藏本笔记\n5⃣中奖者将随机抽取,由系统发送中奖通知\n其他规则:一定要点击笔记左下角的【报名】才能参加此活动哦,中奖后记得在7天内填写收货信息,逾期视为放弃机会~冲了!💞\n", "task_type": {"major": ["文本生成"], "minor": ["小红书风格文本"]}, "domain": ["社交媒体"], "metadata": "暂无元数据信息", "answer_from": "human", "human_verified": false, "copyright": "暂无版权及作者信息"}

转换后格式:

{  "instruction": "写一篇小红书风格的帖子,标题是免费送!超耐摔高档行李箱+送贴纸箱套",  "input": "",  "output": "免费送!爱麦士行李箱实力宠粉![偷笑R]\n✨这款奶白行李箱颜值超高,细磨砂工艺,防刮耐脏容易打理。\n轮子超级顺滑、静音,拖着不累💫\n💖抑菌里布,没有异味,很多隔层真的很实用\n✨✨✨✨✨\n👉8月27日下午3点小红书官方平台自动开奖\n👉中奖奖品:爱麦士行李箱\n抽奖活动规则.\n1⃣活动时间: 8月7日00:00:00-8月27日00:00:00\n2⃣开奖时间: 8月27日15:00:00\n3⃣奖品数量: 3份\n4⃣中奖条件:关注本品牌号;点赞收藏本笔记\n5⃣中奖者将随机抽取,由系统发送中奖通知\n其他规则:一定要点击笔记左下角的【报名】才能参加此活动哦,中奖后记得在7天内填写收货信息,逾期视为放弃机会~冲了!💞\n"  
},

处理代码:

import json as JSON  def jsonl_to_json(jsonl_file, json_file):  dict_list = []  with open(jsonl_file, 'r', encoding='utf-8') as f:  jsonl_data = f.readlines()  for line in jsonl_data:  line_dict = JSON.loads(line)  del line_dict['task_type']  del line_dict['domain']  del line_dict['metadata']  del line_dict['answer_from']  del line_dict['human_verified']  del line_dict['copyright']  dict_list.append(line_dict)  with open(json_file, 'w', encoding='utf-8') as f:  JSON.dump(dict_list, f, indent=4, ensure_ascii=False)  jsonl_file = './data/COIG-CQIA_xhs.jsonl'  
json_file = './data/test.json'  if __name__ == '__main__':  jsonl_to_json(jsonl_file, json_file)
http://www.lryc.cn/news/405704.html

相关文章:

  • 安全产品在防御勒索病毒中的作用
  • NVIDIA 完全过渡到开源 GPU 内核模块
  • learning-cxx 学习cpp 环境配置 + bug解决
  • PHP 多线程和异步编程的常见陷阱
  • STL 哈希 学习总结
  • vue3页面编写-导入导出excel、展开查询项等
  • Java学习 - Spring Boot整合 Thymeleaf 实例
  • ubuntu20.04安装终端终结者并设置为默认终端
  • 以Zookeeper为例 浅谈脑裂与奇数节点问题
  • 最新版kubeadm搭建k8s(已成功搭建)
  • C++学习笔记-友元函数的定义与使用
  • 熵、交叉熵、KL散度
  • THS配置keepalive(yjm)
  • 新加坡裸机云多IP服务器特性
  • 深入理解ADB:Android调试桥详解与使用指南
  • PACS-医学影像信息管理系统,全影像科室PACS源码,内置包括MPR、CMPR、VR等三维处理功能
  • 无人机搭载无人机反制设备可行性分析
  • MATLAB绘制方波、锯齿波、三角波、正弦波和余弦波、
  • 【通信协议-RTCM】MSM语句(2) - RINEXMSM7语句总结(重要!自动化开发计算卫星状态常用)
  • ios CCUIFont.m
  • 调度子系统在特定时间执行
  • 【QAC】Dashboard服务端如何配置
  • 深入理解Linux网络(四):TCP接收阻塞
  • 【iOS】内存五大分区
  • Jupyter Notebook: 是一个强大的交互式计算
  • 【C#学习笔记】变量、变量类型
  • 题解:T480718 eating
  • MATLAB中matfile用法
  • Spring之Spring Bean的生命周期
  • OSINT 开源情报中的地理定位方法