当前位置: 首页 > news >正文

通俗理解repartition和coalesce区别

官方的解释

  • reparation
    在这里插入图片描述
    返回一个具有恰好numPartitions分区的新RDD。
    可以增加减少此RDD中的并行级别。在内部,reparation会使用shuffle来重新分发的数据。
    如果要减少此RDD中的分区数量,请考虑使用coalesce,这样可以避免执行shuffle。

  • coalesce
    在这里插入图片描述返回一个新的RDD,该RDD被减少为numPartitions分区。
    这导致了窄依赖,例如,如果从1000个分区到100个分区,将不会出现shuffle,而是100个新分区中的每一个都将占用当前分区的10个。如果请求更大数量的分区,它将保持在当前的分区数量
    然而,如果您正在进行剧烈的coalesce,例如numPartitions=1,这可能会导致您的计算在比您预想的更少的节点上进行(例如,在numPartitions=1的情况下是一个节点)。为了避免这种情况,您可以传递shuffle=true。这将添加一个shuffle步骤,但意味着当前上游分区将并行执行(无论当前分区是什么)。

    当shuffle设置为true时,

http://www.lryc.cn/news/223944.html

相关文章:

  • 优雅设计之美:实现Vue应用程序的时尚布局
  • 05预测识别-依托YOLO V8进行训练模型的识别——对视频中的目标进行跟踪统计
  • Android Studio(意图Intent)
  • Bean作用域
  • YOLOV5----修改损失函数-SE
  • Mybatis(一)
  • 使用Go构建一个Postgres流平台
  • QT基础与细节理解
  • 【MySQL数据库】 六
  • 微信总提示空间不足怎么办?三个方法随心选!
  • C语言每日一题(27)链表中倒数第k个结点
  • pdf转word
  • LeetCode热题100——二叉树
  • 【Linux】文件重定向以及一切皆文件
  • Go进阶之rpc和grpc
  • 润和软件HopeStage与奇安信网神终端安全管理系统、可信浏览器完成产品兼容性互认证
  • 模态对话框和非模态对话框
  • 【算法与数据结构】39、LeetCode组合总和
  • 行政大厅满意度调查内容
  • WordPress页脚配置备案号
  • 时间序列预测模型实战案例(十)(个人创新模型)通过堆叠CNN、GRU、LSTM实现多元预测和单元预测
  • 【有源码】基于uniapp的农场管理小程序springboot基于微信小程序的农场检测系统(源码 调试 lw 开题报告ppt)
  • 商城系统分布式下单
  • Java自学第5课:Java web开发环境概述,更换Eclipse版本
  • [网鼎杯 2020 青龙组]AreUSerialz
  • 使用Kotlin与Unirest库抓取音频文件的技术实践
  • gdb调试常用命令
  • CH11_重构API
  • UPLOAD-LABS1
  • WordPress相关文章推荐