当前位置：首页 > news >正文

【Spark】加大hive表在HDFS存的每个文件的大小

news 2025/8/8 4:01:57

配置参数：

spark.hadoop.hive.exec.orc.default.stripe.size=78643200
spark.hadoop.orc.stripe.size=78643200
spark.hadoopRDD.targetBytesInPartition=78643200
spark.hadoop.hive.exec.dynamic.partition.mode=nonstrict
spark.sql.sources.partitionOverwriteMode=dynamic
spark.sql.hive.convertMetastoreOrc=true

注意代码里的.repartition(5000)这种要删掉

spark.sql.shuffle.partitions=5000这个配置参数也要删掉

http://www.lryc.cn/news/352934.html

相关文章：

2024 年 5 个 GO REST API 框架

socket地址理解

Gopeed的高级用法

OpenHarmony系统使用gdb调试init

【SpringCloud】Spring Cloud基本介绍

全域运营是本地生活服务的新模式吗？

机器视觉-硬件

机器学习实验 --- 逻辑回归

浅谈C++函数

6.小程序页面布局 - 账单明细

记录ES7.X更新数据的低级错误

【简单介绍下链表基础知识】

leetcode 2915.和为目标值的最长子序列的长度

欧拉函数、快速幂、扩展欧几里得算法、中国剩余定理和高斯消元

自定义原生小程序顶部及获取胶囊信息

yolov8推理由avi改为mp4

Vue3设置缓存：storage.ts

超市信息管理系统（java+swing+jdbc+msyql）

如何用AI工具提升日常工作效率，帮我们提速增效减负

C++: 优先级队列的模拟实现和deque

C++ socket epoll IO多路复用

缓存IO与直接IO

输入输出（3）——C++的标准输入流

[力扣题解] 344. 反转字符串

找不到msvcr110.dll无法继续执行代码的原因分析及解决方法

深入理解数仓开发（一）数据技术篇之日志采集

Edge浏览器：重新定义现代网页浏览

HDFS,HBase,MySQL，Elasticsearch ,MongoDB分别适合存储什么特征的数据?

ArcGIS中离线发布路径分析服务,并实现小车根据路径进行运动

时政｜医疗结果互认