当前位置: 首页 > article >正文

spark- ResultStage 和 ShuffleMapStage介绍

目录

    • 1. ShuffleMapStage(中间阶段)
      • 1.1 作用
      • 1.2 核心特性
      • 1.3 示例
    • 2. ResultStage(最终结果阶段)
      • 2.1 作用
      • 2.2 核心特性
      • 2.3 示例
    • 3. 对比总结
    • 4. 执行流程示例
    • 5. 常见问题
      • Q1:为什么需要区分两种 Stage?**
      • Q2:如何手动观察 Stage 划分?
      • Q3:ShuffleMapStage 的数据一定会落盘吗?

在 Spark 的 DAG 调度模型中,Stage 被划分为 ResultStageShuffleMapStage 两类,它们的核心区别在于在计算流程中的角色数据输出方式。以下是详细解析:

1. ShuffleMapStage(中间阶段)

1.1 作用

  • 为后续 Stage 准备数据:负责处理 Shuffle 操作的上游数据,输出结果会被分区并写入磁盘(或内存),供下游 Stage 读取。
  • 典型场景:所有需要 Shuffle 的操作(如 groupByKeyreduceByKeyjoin 等)。

1.2 核心特性

特性说明
输出数据写入 Shuffle 文件(存储在 Executor 本地或分布式存储)
依赖关系可能有多个下游 Stage 依赖它(宽依赖)
任务类型生成 ShuffleMapTask,任务完成后会返回 MapStatus(记录输出文件位置)
生命周期临时性阶段,数据被下游消费后即可释放

1.3 示例

# 以下操作会生成 ShuffleMapStage
rdd = sc.parallelize([(1, "A"), (2, "B"), (1, "C")])
shuffled = rdd.groupByKey()  # 触发Shuffle

执行流程

  1. 上游数据按 Key 分区 → 2. 写入本地 Shuffle 文件 → 3. 下游 Stage 拉取数据

2. ResultStage(最终结果阶段)

2.1 作用

  • 生成最终结果:执行 Action 操作(如 count()collect()saveAsTextFile()),将计算结果返回 Driver 或写入外部存储。
  • 典型场景:所有触发作业执行的 Action 操作。

2.2 核心特性

特性说明
http://www.lryc.cn/news/2393548.html

相关文章:

  • zTasker一款Windows自动化软件,提升效率:大小仅有10MB,免费无广告
  • 人工智能100问☞第34问:什么是语音识别与合成?
  • 最大流-Ford-Fulkerson增广路径算法py/cpp/Java三语言实现
  • 怎么从一台电脑拷贝已安装的所有python第三方库到另一台
  • 【测试】Bug和用例
  • 缓存穿透、缓存击穿、缓存雪崩目前记录(纯日记)
  • 鸿蒙OS的5.0.1.120版本体验怎么样?
  • 使用ssh-audit扫描ssh过期加密算法配置
  • 前端工程化 Source Map(源码映射)详解
  • 2025.05.28-华为暑期实习第二题-200分
  • Java+Playwright自动化-2-环境准备与搭建-基于Maven
  • 由sigmod权重曲线存在锯齿的探索
  • 二、OpenCV图像处理-图像处理
  • UPS的工作原理和UPS系统中旁路的作用
  • 麒麟系统 Linux(aarch64处理器)系统java项目接入海康SDK问题
  • 深入理解数组索引:原理、应用与优化
  • 【洛谷P9303题解】AC- [CCC 2023 J5] CCC Word Hunt
  • Python图片格式批量转换器教程
  • 从公开到私密:重新思考 Web3 的数据安全
  • 计算机网络常见体系结构、分层必要性、分层设计思想以及专用术语介绍
  • 接口自动化测试用例的编写方法
  • 解决Docker存储空间不足问题
  • 基于SpringBoot的商家销售管理网站的设计与实现
  • 【数据集】高分辨率(1 km)月尺度中国气候(降水+最高/低温)数据集(1952–2019)
  • word中表格拉不动以及插入图片有间距
  • JavaSE:面向对象进阶之接口(Interface)
  • 【Java学习笔记】接口
  • 代码随想录打卡|Day50 图论(拓扑排序精讲 、dijkstra(朴素版)精讲 )
  • Wan2.1 图生视频模型内部协作流程
  • SI24R05国产低功耗2.4GHz+125K低频唤醒SoC人员定位/畜牧业牛羊定位/资产管理定位方案芯片