当前位置: 首页 > news >正文

Spark内存迭代计算

一、宽窄依赖

窄依赖:父RDD的一个分区数据全部发往子RDD的一个分区

宽依赖:父RDD的一个分区数据发往子RDD的多个分区,也称为shuffle

二、Spark是如何进行内存计算的?DAG的作用?Stage阶段划分的作用?

(1)Spark生成DAG图

(2)基于宽窄依赖对DAG图进行阶段划分

(3)每个stage内部都是窄依赖,窄依赖内,前后形成1:1的分区关系,一个stage的多个并行任务就成为了多个内存迭代计算管道

(4)这些内存迭代计算的管道,就是一个个具体的执行Task

(5)一个Task是一个具体的线程,任务跑在一个线程之中,就是走内存计算了。

http://www.lryc.cn/news/545861.html

相关文章:

  • Python之参数星号(*)使用笔记
  • 一文掌握 Scrapy 框架的详细使用,包括实战案例
  • 【Mac】git使用再学习
  • 【MySQL篇】数据库基础
  • SpringBoot项目注入 traceId 来追踪整个请求的日志链路
  • 【Block总结】SAFMN,空间自适应调制与局部特征增强的协同设计|即插即用
  • Python爬虫:一文掌握PyQuery模块
  • LearnOpenGL之Shader编程用算法绘画
  • 如何使用Spring Boot框架整合Redis:超详细案例教程
  • 算法--贪心
  • 线程控制(创建、终止、等待、分离)
  • 【备份】php项目处理跨域请求踩坑
  • 目标检测YOLO实战应用案例100讲-面向无人机图像的小目标检测
  • 实现 Leaflet 多类型点位标记与聚合功能的实战经验分享
  • Linux 环境“从零”部署 MongoDB 6.0:mongosh 安装与数据操作全攻略
  • 深度学习五大模型:CNN、Transformer、BERT、RNN、GAN详细解析
  • 004 rocketmq集群
  • 基于 Python 深度学习的电影评论情感分析可视化系统(2.0 全新升级)
  • Linux内核配置与构建原理
  • 大语言模型微调的基本概念介绍
  • 实例分割 | yolov11训练自己的数据集
  • vue3:四嵌套路由的实现
  • AIGC和搜索引擎的异同
  • ES批量查询
  • Vue2学习
  • PySide(PyQT)重新定义contextMenuEvent()实现鼠标右键弹出菜单
  • Storm实时流式计算系统(全解)——下
  • 配置Nginx日志url encode问题
  • JAVA SE 包装类和泛型
  • 基于Linux系统的物联网智能终端