当前位置: 首页 > news >正文

【Spark】RDD缓存机制

1. RDD缓存机制是什么?

把RDD的数据缓存起来,其他job可以从缓存中获取RDD数据而无需重复加工。

2. 如何对RDD进行缓存?

有两种方式,分别调用RDD的两个方法:persistcache
注意:调用这两个方法后并不会立刻缓存,而是有action算子触发时才会缓存。

3. persist 和 cache有什么区别?

二者的区别在于缓存级别上:
persist有多种缓存方式,如缓存到内存,缓存到磁盘等。
cache只缓存到内存,且实际是调用了persist方法。
两种方法的源码及缓存RDD的缓存级别如下:
在这里插入图片描述
在这里插入图片描述

4. 何时需要缓存RDD?

有两种情况:

  1. RDD被后续多个job用到;
  2. RDD的计算过程复杂。

5. 如何清除RDD缓存?

有两种方式:

  1. 应用程序结束后,缓存自动清除;
  2. 调用unpersist方法,源码如下:
    在这里插入图片描述

–The End–

http://www.lryc.cn/news/57939.html

相关文章:

  • 学成在线:第六天(p94-p102)
  • 读懂AUTOSAR:PduR模块--使用FIFO
  • 对象的比较(数据结构系列12)
  • 31.下一个排列
  • ToBeWritten之理解嵌入式Web HTTP协议
  • 顶级程序员的成长之路1
  • 第三代api自动化测试框架使用教程(pytest+allure+sql+yaml)
  • Qt——实现一个获取本机网络信息的界面
  • 全面深入了解接口自动化,看完还不会我报地址
  • Python 小型项目大全 61~65
  • Hlog
  • 学编程应该选择什么操作系统?
  • Oracle基础部分二(伪列/表、单个函数、空值处理、行列转换、分析函数、集合运算)
  • c/c++:原码,反码,补码和常见的数据类型取值范围,溢出
  • Java题目训练——年终奖和迷宫问题
  • ORACLE EBS系统应用基础概述(1)
  • 电子科技大学信息与通信工程学院2023考研复试总结
  • 神经网络激活函数
  • 2.C 语言基本语法
  • Qt 6.5 LTS 正式发布
  • Linux权限提升—定时任务、环境变量、权限配置不当、数据库等提权
  • Python爬虫——使用requests和beautifulsoup4库来爬取指定网页的信息
  • 基于Java3D的网络三维技术的设计与实现
  • python机器学习数据建模与分析——数据预测与预测建模
  • Flink系列-6、Flink DataSet的Transformation
  • Java-类的知识进阶
  • C# | 上位机开发新手指南(六)摘要算法
  • 测试工程师:“ 这锅我不背 ” ,面对灵魂三问,如何回怼?
  • 【Java闭关修炼】SpringBoot-SpringMVC概述和入门
  • pdf转换器免费版哪种好用:Aiseesoft PDF Converter Ultimate | 无损转word转Excel转PPT转图片啥都行!!!