当前位置：首页 > news >正文

spark读取parquet文件

news 2025/9/18 12:20:59

源码

parquet文件读取的入口是FileSourceScanExec，用parquet文件生成对应的RDD

非bucket文件所以走createNonBucketedReadRDD方法。

createNonBucketedReadRDD

过程：

确定文件分割参数
1. openCostInBytes=4M 相关参数spark.sql.files.openCostInBytes=4M
2. maxSplitBytes<=128M 相关参数spark.sql.files.maxPartitionBytes=128M，根据maxSplitBytes计算得来
3. logInfo打印的日志可以用于排查参数
切分文件
1. splitFiles进行文件切分，按照maxSplitBytes将大文件切分
切分后文件根据大小进行倒排，为了方便后面合并
合并partition
1. getFilePartitions 将小文件合并到一个partition
生成RDD

maxSplitBytes

defaultMaxSplitBytes 最大分区大小=spark.sql.files.maxPartitionBytes=128M
openCostInBytes 打开文件的代价默认4M
defaultParallelism 并行度conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2)) 默认是core的总和，最小为2
totalBytes 文件总大小（单个文件大小需要加上openCostInBytes）
bytesPerCore 单个core分配的文件大小

最后Math.min(defaultMaxSplitBytes, Math.max(openCostInBytes, bytesPerCore))

splitFiles

0L until file.getLen by maxSplitBytes按maxSplitBytes进行文件拆分

getFilePartitions

currentSize += file.length + openCostInBytes计算文件大小的时候需要加上openCostInBytes

计算示例

parquet文件是9,905,218b，并行度是2

defaultMaxSplitBytes = 128MB

openCostInBytes = 4MB

defaultParallelism = max(2, 2) = 2

totalBytes = 9,905,218b+ 1 * 4MB = 14,099,522B

bytesPerCore = 14,099,522B / 2 = 7,049,761B

maxSplitBytes = 7,049,761B = Math.min(defaultMaxSplitBytes, Math.max(openCostInBytes, bytesPerCore))

文件分成0-7049761 和 7049761-9905218两部分

从下面日志可以知道计算正确。

参考https://developer.aliyun.com/article/985412?utm_content=m_1000349867

http://www.lryc.cn/news/469672.html

相关文章：

redis详细教程（1.String类型）

用友U8接口-库存管理(7)

Spring Boot HikariCP数据库连接池入门

Docker快速上手教程：MacOS系统【安装/配置/使用/原理】全链路速通

【JavaSE】认识String类，了解，进阶到熟练掌握

vue3 vben-admin 窗口大小更改后 echarts尺寸变为 100px的问题

Web应用框架-Django应用基础（3）-Jinja2

js(深浅拷贝，节流防抖，this指向，改变this指向的方法)

香橙派5(RK3588)使用npu加速yolov5推理的部署过程

基于MWORKS的蓝桥杯「智能装备数字化建模大赛」正式发布，首期培训本周六开启

021、深入解析前端请求拦截器

windows中的tracert命令

【玩儿】Java 数字炸弹小游戏（控制台版）+ IO 数据存储

今日头条躺赚流量：自动化新闻爬取和改写脚本

日常实习与暑期实习详解

Git的原理和使用（六）

Elasticsearch 中的高效按位匹配

LSTM，全称长短期记忆网络（Long Short-Term Memory），是一种特殊的循环神经网络（RNN）结构

导出问题处理

通过cv库智能切片把不同的分镜切出来自媒体抖音快手混剪

【机器学习】——numpy教程

多线程——线程的状态

开源数据库 - mysql - 组织结构（与oracle的区别）

vue3+vite 部署npm 包

华为鸿蒙HarmonyOS应用开发者高级认证视频及题库答案

【计网】从零开始认识IP协议 --- 认识网络层，认识IP报头结构

大一物联网要不要转专业，转不了该怎么办?

LeetCode题练习与总结：4的幂--342

ubuntu GLEW could not be initialized : Unknown error

51c~目标检测~合集1