当前位置: 首页 > news >正文

大数据系列之:读取parquet文件统计数据量

大数据系列之:读取parquet文件统计数据量

  • 一、Spark读取parquet文件统计数据量
  • 二、parquet-tools统计parquet文件数据量
  • 三、实际应用案例

一、Spark读取parquet文件统计数据量

  1. 首先,创建一个 SparkSession 对象:
val spark = SparkSession.builder().appName("Parquet Data Count").getOrCreate()
  1. 然后,使用 SparkSession 读取 Parquet 文件并将其转换为 DataFrame:
val data = spark.read.format("parquet").load("/path/to/hdfs/parquet/file")
  1. 最后,使用 DataFrame 的 count 方法进行数据量统计:
val count = data.count()

二、parquet-tools统计parquet文件数据量

下载parquet-tools工具

使用 Hadoop 命令行工具:

  1. 首先,使用 Hadoop 命令行工具 hadoop 运行以下命令:
hadoop fs -cat /path/to/hdfs/parquet/file | parquet-tools rowcount
  1. 该命令将读取 Parquet 文件并使用 parquet-tools 工具来统计数据量,并输出结果。

三、实际应用案例

读取hdfs上的parquet文件:

%sparkval data = spark.read.format("parquet").load("/optics/ods_optics_prod/packing_data_item_1h_a/datetime=2023122514/part-00000-2675f81c-3c90-4af7-a489-bd8ce5cfec2c-c000.zstd.parquet")

查看数据量:

%spark
val count = data.count()count: Long = 433173
http://www.lryc.cn/news/273565.html

相关文章:

  • 力扣题:字符串变换-1.5
  • el-autocomplete远程搜索使用及el-upload上传多个文件流给后端,详情接口返回的是文件地址,前端将文件地址转成文件流,回传文件流给后端
  • 2024年度 ROTS - 实时操作系统 Top 15
  • 苹果怎么同步备忘录?教程来了,干货满满!
  • Nginx(十八) 性能调优之 - 哪些层面可以进行优化
  • OpenStack云计算(三)neutron
  • Linux期末复习笔记
  • PHP实现多继承
  • pulsar原来是这样操作topic的
  • 日常工作 经验总结
  • 【Proteus仿真】【Arduino单片机】水箱液位监控系统
  • 【已解决】若依系统前端打包后,部署在nginx上,点击菜单错误:@/views/system/role/index
  • Java中compareTo方法使用
  • 【霹雳吧啦】手把手带你入门语义分割の番外11:U2-Net 源码讲解(PyTorch)—— 代码的使用
  • 威尔仕2023年的统计数据
  • Spring——Spring基于注解的IOC配置
  • spring常用注解(一)springbean生命周期类
  • 【软件测试】2024年准备中/高级测试岗技术面试...
  • 第11课 实现桌面与摄像头叠加
  • SAP 检验批状态修改(QA32质检放行报错:BS002 不允许 “访问使用决定“ (INL 101105415 ))
  • 华为交换机如何同时配置多个端口参数
  • Mybatis之多表查询
  • 部署node.js+express+mongodb(更新中)
  • 百度CTO王海峰:文心一言用户规模破1亿
  • 简单最短路径算法
  • 答案解析——C语言—第3次作业—算术操作符与关系操作符
  • 【数据结构】二叉树的链式实现
  • 八、QLayout 用户基本资料修改(Qt5 GUI系列)
  • tomcat、java、maven
  • IDEA好用插件