当前位置: 首页 > news >正文

Spark区分应用程序 Application、作业Job、阶段Stage、任务Task

目录

一、Spark核心概念

1、应用程序Application

2、作业Job

3、阶段Stage

4、任务Task

二、示例


一、Spark核心概念

在Apache Spark中,有几个核心概念用于描述应用程序的执行流程和组件,包括应用程序 Application、作业Job、阶段Stage、任务Task:

1、应用程序Application

指一个Spark应用程序通常指的是用户编写的Spark程序,它可能包含多个作业。例如一个基于Spark的机器学习算法的实现,或者一个处理日志文件并生成报告的程序。

2、作业Job

指由一个action操作触发的计算任务集合,action操作是触发实际计算的操作,例如count(), collect(), saveAsTextFile()等算子。例如saveAsTable()操作将触发一个作业来将DataFrame的内容保存到表中。

3、阶段Stage

一个作业会被分解成多个阶段,每个阶段包含一系列并行的任务。阶段通常由宽依赖(即需要跨分区重新分区的操作)来划分。例如,在一个简单的Word Count程序中,读取文本文件是一个阶段,然后对文本进行分词并计算每个单词的频率是另一个阶段。

4、任务Task

任务是最小的执行单位,每个任务对应于一个阶段中的一个数据分区。Spark将任务发送到集群中的执行器去执行。例如,在Word Count程序的第二个阶段,如果数据被分为10个分区,那么将会有10个任务分别计算每个分区的单词频率。

二、示例

from pyspark.sql import SparkSession# 创建Spark会话
spark = SparkSession.builder.appName("test").getOrCreate()# 读取文本文件
text_file = spark.sparkContext.textFile("/data/words.txt")# 对文本进行分词并计算每个单词的频率
word_counts = text_file.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)# 触发作业,将结果保存到HDFS
word_counts.saveAsTextFile("/output")# 关闭Spark会话
spark.stop()

上例中,整个Python脚本就是一个Spark应用程序,用于计算文本文件中每个单词的出现次数。

当执行saveAsTextFile算子时,触发了作业,因为saveAsTextFile是一个行动操作。该作业包含两个阶段,第一个阶段是读取文本文件并执行flatMap和map操作,第二个阶段是执行reduceByKey操作。

每个阶段会有多个任务,具体数量取决于数据分区的数量。例如,如果text_file有10个分区,那么在第一个阶段会有10个任务来处理每个分区的数据。

http://www.lryc.cn/news/498525.html

相关文章:

  • 【Liunx篇】基础开发工具 - yum
  • docker学习笔记(五)--docker-compose
  • 电子商务人工智能指南 4/6 - 内容理解
  • Hadoop3集群实战:从零开始的搭建之旅
  • Kotlin设计模式之桥接模式
  • 详解组合模式
  • 【系统架构设计师论文】云上自动化运维及其应用
  • 交换排序----快速排序
  • ES 与 MySQL 在较大数据量下查询性能对比
  • C# 新语法中的字符串内插$和{}符号用法详解
  • Nacos源码学习-本地环境搭建
  • windows 好工具
  • 计算机运行时提示错误弹窗“由于找不到 quazip.dll,无法继续执行代码。”是什么原因?“quazip.dll文件缺失”要怎么解决?
  • 创造未来:The Sandbox 创作者训练营如何赋能全球创造者
  • R语言对简·奥斯汀作品中人物对话的情感分析
  • 股指期货基差为正数,这是啥意思?
  • 黑马程序员MybatisPlus/Docker相关内容
  • 使用 Vue 和 Canvas-Confetti 实现烟花动画特效
  • 【银河麒麟操作系统真实案例分享】内存黑洞导致服务器卡死分析全过程
  • 如何加强游戏安全,防止定制外挂影响游戏公平性
  • SpringBoot整合knife4j,以及会遇到的一些bug
  • 城电科技|光伏廊道是什么?安装光伏廊道有什么好处?
  • 当DHCP服务器分配了同一个IP地址
  • 储能能量自动化调配装置功能介绍
  • vite5+vue3+Ts5 开源图片预览器上线
  • 【深度学习】深入解析长短期记忆网络(LSTMs)
  • 从Web3到智能合约:探索新一代数据交互模式
  • 排查bug的通用思路
  • 如何利用Python爬虫获得商品类目
  • 如何通过 Windows 自带的启动管理功能优化电脑启动程序