当前位置: 首页 > news >正文

spark性能调优 | 默认并行度

Spark Sql默认并行度

看官网,默认并行度200
https://spark.apache.org/docs/2.4.5/sql-performance-tuning.html#other-configuration-options
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

优化

在数仓中 task最好是cpu的两倍或者3倍(最好是倍数,不要使基数)
拓展

在本地 task需要自己设置,cpu就是local[x]   x就代表cpu数
在yarn --num-executors 2 --executor-cores 2相乘就代表你的cpu个数

根据提交命令

spark-submit \
--master yarn \
--deploy-mode client \
--driver-memory 1g \
--num-executors 2 \
--executor-cores 2 \
--executor-memory 2g \
--queue spark \
--class com.donglin.sparksqltuning.PartitionTuning spark-sql-tuning-1.0-SNAPSHOT-jar-with-dependencies.jar 

去向yarn申请的executor vcore资源个数为4个(num-executors*executor-cores),如果不修改spark sql分区个数,那么就会像上图所展示存在cpu空转的情况。这个时候需要合理控制shuffle分区个数。如果想要让任务运行的最快当然是一个task对应一个vcore,但是数仓一般不会这样设置,为了合理利用资源,一般会将分区(也就是task)设置成vcore的2倍到3倍。
在这里插入图片描述
可以看出,时间快了不少!(这个需要多次调试,找出最优
在这里插入图片描述

http://www.lryc.cn/news/234460.html

相关文章:

  • Python-pptx教程之二操作已有PPT模板文件
  • 生活总是自己的,请尽情打扮,尽情可爱,,
  • 栈和队列的初始化,插入,删除,销毁。
  • 重温《Unix设计哲学》
  • AIGC创作系统ChatGPT源码,AI绘画源码,支持最新GPT-4-Turbo模型,支持DALL-E3文生图
  • Spring条件注解@Conditoinal+ Profile环境切换应用@Profile
  • Scrum框架中的Sprint
  • openfeign、nacos获取接口提供方真实IP
  • Linux系统编程学习 NO.9——git、gdb
  • 【联邦学习+区块链】TORR: A Lightweight Blockchain for Decentralized Federated Learning
  • 《网络协议》08. 概念补充
  • 利用NVIDIA DALI读取视频帧
  • TSINGSEE青犀AI智能分析+视频监控工业园区周界安全防范方案
  • 【算法每日一练]-图论(保姆级教程 篇5(LCA,最短路,分层图)) #LCA #最短路计数 #社交网络 #飞行路线 # 第二短路
  • 德迅云安全为您介绍关于抗D盾的一些事
  • leetcode算法之位运算
  • java常用的几个图片处理工具对Tiff文件的支持
  • SQL必知会(二)-SQL查询篇(11)-联结表
  • 多模态大一统:开启全模态LLM和通用AI时代的大门
  • Alibaba Nacos注册中心实战
  • 京东数据采集与挖掘(京东大数据):2023年10月京东冰箱品牌销售排行榜
  • 某事业单位转型二类后绩效项目成功案例纪实
  • MySQL 和 SQL Server之间的数据迁移方法
  • 单元测试实战(五)普通类的测试
  • js 迭代器iterator 和 生成器Generator 10
  • 100套Axure RP大数据可视化大屏模板及通用组件库
  • 【OpenGauss源码学习 —— 执行算子(Append算子)】
  • Java(一)(引用类型的参数在传递,方法重载,面向对象编程基础)
  • Vue第1天:特性概览
  • C++语法基础知识面经汇总