当前位置: 首页 > news >正文

【Spark】加大hive表在HDFS存的每个文件的大小

配置参数:

spark.hadoop.hive.exec.orc.default.stripe.size=78643200
spark.hadoop.orc.stripe.size=78643200
spark.hadoopRDD.targetBytesInPartition=78643200
spark.hadoop.hive.exec.dynamic.partition.mode=nonstrict
spark.sql.sources.partitionOverwriteMode=dynamic
spark.sql.hive.convertMetastoreOrc=true

注意代码里的.repartition(5000)这种要删掉

spark.sql.shuffle.partitions=5000这个配置参数也要删掉

http://www.lryc.cn/news/352934.html

相关文章:

  • 2024 年 5 个 GO REST API 框架
  • socket地址理解
  • Gopeed的高级用法
  • OpenHarmony系统使用gdb调试init
  • 【SpringCloud】Spring Cloud基本介绍
  • 全域运营是本地生活服务的新模式吗?
  • 机器视觉-硬件
  • 机器学习实验 --- 逻辑回归
  • 浅谈C++函数
  • 6.小程序页面布局 - 账单明细
  • 记录ES7.X更新数据的低级错误
  • 【简单介绍下链表基础知识】
  • leetcode 2915.和为目标值的最长子序列的长度
  • 欧拉函数、快速幂、扩展欧几里得算法、中国剩余定理和高斯消元
  • 自定义原生小程序顶部及获取胶囊信息
  • yolov8推理由avi改为mp4
  • Vue3设置缓存:storage.ts
  • 超市信息管理系统(java+swing+jdbc+msyql)
  • 如何用AI工具提升日常工作效率,帮我们提速增效减负
  • C++: 优先级队列的模拟实现和deque
  • C++ socket epoll IO多路复用
  • 缓存IO与直接IO
  • 输入输出(3)——C++的标准输入流
  • [力扣题解] 344. 反转字符串
  • 找不到msvcr110.dll无法继续执行代码的原因分析及解决方法
  • 深入理解数仓开发(一)数据技术篇之日志采集
  • Edge浏览器:重新定义现代网页浏览
  • HDFS,HBase,MySQL,Elasticsearch ,MongoDB分别适合存储什么特征的数据?
  • ArcGIS中离线发布路径分析服务,并实现小车根据路径进行运动
  • 时政|医疗结果互认