当前位置: 首页 > news >正文

pandas.frame输出parquet

代码

import pandas as pd
import pyarrow._parquet as pqdata = pd.read_parquet("0000.parquet")
total_rows = len(data)
half_row_num = total_rows//2
print(half_row_num)
first_half = data.iloc[:20000]
second_half = data.iloc[20000:20000]
# print(first_half['label'].sum())
# print(second_half['label'].sum())first_half.to_parquet('/train.parquet',engine='pyarrow')
second_half.to_parquet('dataset/test.parquet',engine='pyarrow')
# pq.write_table(first_half.to_parquet().to_arrow(),'dataset/train.parquet')
# pq.write_table(second_half.to_parquet().to_arrow(),'dataset/test.parquet')
# print(first_half)
# print(data)
http://www.lryc.cn/news/379687.html

相关文章:

  • 【CT】LeetCode手撕—42. 接雨水
  • GPT-4o一夜被赶超,Claude 3.5一夜封王|快手可灵大模型推出图生视频功能|“纯血”鸿蒙大战苹果AI|智谱AI“钱途”黯淡|月之暗面被曝进军美国
  • C# + easyui 写的一个web项目
  • JVM 垃圾回收分配及算法
  • 尚品汇-(四)
  • colima配置docker镜像源
  • Linux_内核缓冲区
  • 步步精:连接器领域的卓越品牌
  • 【Linux】基础IO_3
  • ffmpeg音视频开发从入门到精通——ffmpeg实现音频抽取
  • 计算机系统基础实训七-MallocLab实验
  • 周末总结(2024/06/22)
  • 2024.06.22【读书笔记】丨生物信息学与功能基因组学(第十七章 人类基因组 第二部分)【AI测试版】
  • SpringCloud-nacos基础
  • git的Cherry pick
  • LLC开关电源开发:第四节,LLC软件设计报告
  • 力扣85.最大矩形
  • 和琪宝的厦门之旅~
  • 4、MFC:菜单栏、工具栏与状态栏
  • Java中的动态代理:原理与应用
  • DataWhale - 吃瓜教程学习笔记(二)
  • [保姆级教程]uniapp自定义标签页切换组件
  • 4种典型家庭教育方式,无论开始是哪一种,都会过渡到最后一种
  • [Django学习]查询过滤器(lookup types)
  • 异步开发的终极答案—协程
  • 构建高效的大数据量延迟任务调度平台
  • Python武器库开发-武器库篇之ThinkPHP 2.x 任意代码执行漏洞(六十三)
  • SQLite数据库(数据库和链表双向转换)
  • React框架的来龙去脉,react的技术原理及技术难点和要点,小白的进阶之路
  • CPU飙升100%怎么办?字节跳动面试官告诉你答案!