当前位置: 首页 > news >正文

大数据课程K5——Spark的框架核心概念

文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州

 ▲ 本章节目的

⚪ 了解Spark的框架核心概念;

⚪ 掌握Spark的Spark集群模式安装;

⚪ 掌握Spark的Spark架构;

⚪ 掌握Spark的Spark调度模块;

一、Spark框架核心概念

1. RDD。弹性分布式数据集,是Spark最核心的数据结构。有分区机制,所以可以分布式进行处理。有容错机制,通过RDD之间的依赖关系来恢复数据。

2. 依赖关系。RDD的依赖关系是通过各种Transformation(变换)来得到的。父RDD和子RDD之间的依赖关系分两种:①窄依赖  ②宽依赖。

①针对窄依赖:父RDD的分区和子RDD的分区关系是:一对一。

窄依赖不会发生Shuffle,执行效率高,spark框架底层会针对多个连续的窄依赖执行流水线优化,从而提高性能。例如 map  flatMap等方法都是窄依赖方法。

②针对宽依赖:父RDD的分区和子RDD的分区关系是:一对多。

宽依赖会产生shuffle,会产生磁盘读写,无法优化。

3. DAG。有向无环图,当一整条RDD的依赖关系形成之后,就形成了一个DAG。一般来说,一个DAG,最后都至少会触发一个Action操作,触发执行。一个Action对应一个Job任务。

4. Stage。一个DAG会根据RDD之间的依赖关系进行Stage划分,流程是:以Action为基准,向前回溯,遇到宽依赖,就形成一个Stage。遇到窄依赖,则执行流水线优化(将多个连续的窄依赖放到一起执行)。

5. task。任务。一个分区对应一个task。可以这样理解:一个Stage是一组Task的集合。

6. RDD的Transformation(变换)操作:懒执行,并不会立即执行。

7. RDD的Action(执行)操作:触发真正的执行。

二、Spark集群模式安装

http://www.lryc.cn/news/136767.html

相关文章:

  • 【⑬MySQL | 数据类型(一)】简介 | 整数 | 浮点 | 定点类型
  • 5.6 汇编语言:汇编高效数组寻址
  • uniapp - 实现卡片式胶囊单选后右上角出现 “√“ 对勾对号选中效果功能,适用于小程序h5网页app全平台通用(一键复制组件源码,开箱即用!)
  • 使用Jetpack Compose构建可折叠Card
  • 安卓手机跑 vins slam (1)
  • 腾讯云-对象存储服务(COS)的使用总结
  • kafka复习:(3)自定义序列化器和反序列化器
  • Unity 图片资源的适配
  • 【Axure高保真原型】通过输入框动态控制折线图
  • 【Java】树结构数据的搜索
  • ElementUI中的日历组件加载无效的问题
  • Git版本管理(03)stash临时操作和.gitignore配置
  • 【ThingJS | 3D可视化】开发框架,一站式数字孪生
  • SpringBoot返回响应排除为 null 的字段
  • 华为数通方向HCIP-DataCom H12-821题库(单选题:41-60)
  • OpenAI推出GPT-3.5Turbo微调功能并更新API;Midjourney更新局部绘制功能
  • 相机成像之3A算法的综述
  • 最新AI系统ChatGPT程序源码/微信公众号/H5端+搭建部署教程+完整知识库
  • OpenCV实例(九)基于深度学习的运动目标检测(二)YOLOv2概述
  • 【Docker】已经创建好的Docker怎么设置开机自启
  • E - Excellent Views
  • WiFi天线和NB-IoT天线不通用
  • IoT DC3 是一个基于 Spring Cloud 的开源的、分布式的物联网(IoT)平台本地部署步骤
  • VBA Excel自定义函数的使用 简单的语法
  • 字节跳动 从需求到上线全流程 软件工程流程 需求评估 MVP
  • 线性代数-矩阵的本质
  • React基础入门之虚拟Dom
  • C++基础Ⅰ编译、链接
  • VMware和ubuntu配置Hadoop环境
  • uview2.0自定义tabbar