当前位置: 首页 > news >正文

spark中的并行度(分区数)/分区器如何确定

  • 源头RDD有自己的分区计算逻辑,一般没有分区器,并行度是根据分区算法自动计算的,RDD的compute函数中记录了数据如何而来,如何分区的

  • hadoopRDD,根据XxxinputFormat.getInputSplits()来决定,比如默认的TextInputFormat将文件按照0-128M进行切割,剩余部分是否小于128M的1.1倍

  • JdbcRDD,需要指定一个数字类型的字段,而且指定上界,下届,然后指定并行度进行分割

  • 大部分源头RDD都有传入并行度的参数

  • 窄依赖RDD,没有自己的分区器,默认集成它的上级RDD的并行度

  • 有个特殊的窄依赖算子,coalesce(2,true),他需要指定并行度

  • 宽依赖 RDD(ShuffledRDD),这种RDD是通过进行shuffle的算子得到的,shuffle算子必须要一个分区器,要么传,要么走默认分区器

  • shuffle算子指定并行度,groupBy(f(),4) //分区器为:hashpartitioner,并行度为4

  • 有个特殊的shuffle算子,默认分区器不是hashpartitioner。那就是sortBy(),他是RangePartitiner,但是sortBy其实用的是sortByKey然后取value 最终.values把分区器搞丢了

  • shuffle算子只当分区函数,groupBy(f(),RangePartitioner(4)) /分区器为:RangePartitioner,并行度为4

  • shuffle算子不传并行度,也不传分区器

  • 按照 Partitioner.defaultPartitioner( )获取分区器,

  • 默认并行度为:spark.default.parallelism值,如果没设置这个参数,则取上游Rdd中并行度的最大值

  • 最大分区器:上游所有有分区器的rdd中,并行度最大的rdd的分区器

  • 上游rdd有分区器

  • 如果上游所有rdd中的最大并行度/最大分区器所在rdd的并行度<10 或者 默认并行度小于最大分区器所在rdd的并行度,那么直接用最大分区器

  • 上游rdd没有分区器

  • 默认以hashPatitioner作为分区器,并行度为默认并行度

  • 按照backend.defaultParallelism()获取默认并行度

  • 本地模式:getInt("spark.default.parallelism", totalCores),根据spark.default.parallelism参数,如果没配置就是机器的总逻辑核数,setMaster(local[*]) *代表全部逻辑核

  • yarn:getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2)),根据spark.default.parallelism参数,如果没配置就是yarn的executor的总逻辑核数,最小也得两个并行度

http://www.lryc.cn/news/39295.html

相关文章:

  • 00后女生“云摆摊”两周赚1.5万,实体店转战线上真的能赚钱吗?
  • 华为OD机试题 - 最优资源分配(JavaScript)| 机考必刷
  • 利用python判断字符串是否为回文
  • GDB 调用之ptype、set variable
  • 并发编程---阻塞队列(五)
  • 本科课程【计算机组成原理】实验1 - 输出ABCD程序的生成
  • Java并发编程(2) —— 线程创建的方式与原理
  • 你写的js性能有多差你知道吗 | js性能优化
  • 线程的状态、状态之间的相互转换
  • Java8使用Lambda表达式(流式)快速实现List转map 、分组、过滤等操作
  • C++之深浅拷贝
  • CoreLocation的一切
  • HashMap原理
  • STM32入门笔记(02):独立看门狗(IWDG)和窗户看门狗(WWDG)(SPL库函数版)
  • javaSE系列之方法与数组的使用
  • 常用命令总结
  • 【Linux:程序地址空间--原来操作系统也喜欢画大饼】
  • Python实现简单信号滤波实战
  • Java(110):非对称加密RSA的使用(KeyPair生成密钥)
  • (Mybatis 学习【1】)整合 Mybatis 开发流程
  • 一文搞懂Kerberos
  • Go爬虫学习笔记(三)
  • CASTEP参数设置(2)
  • 浅谈对Promise的理解以及在工作中的应用
  • 开源|快速入门和理解并模拟实现GPS户外机器人的定位与导航
  • Java多线程系列--synchronized的原理
  • QEMU启动ARM64 Linux内核
  • Linux->进程程序替换
  • 最强分布式锁工具:Redisson
  • Java9-17新特性