当前位置: 首页 > news >正文

3.5 RDD持久化机制

一、RDD持久化

1、不采用持久化操作
查看要操作的HDFS文件
在这里插入图片描述
以集群模式启动Spark Shell
在这里插入图片描述
按照图示进行操作,得RDD4和RDD5
在这里插入图片描述
查看RDD4内容,会从RDD1到RDD2到RDD3到RDD4跑一趟
在这里插入图片描述
显示RDD5内容,也会从RDD1到RDD2到RDD3到RDD5跑一趟

在这里插入图片描述
2、采用持久化操作
在这里插入图片描述
计算RDD4,就是基于RDD3缓存的数据开始计算,不用从头到尾跑一趟
在这里插入图片描述
计算RDD5,就是基于RDD3缓存的数据开始计算,不用从头到尾跑一趟
在这里插入图片描述

二、存储级别

案例演示设置存储级别
在这里插入图片描述

package net.cxf.rdd.day05import org.apache.log4j.{Level, Logger}
import org.apache.spark.storage.StorageLevel
import org.apache.spark.{SparkConf, SparkContext}import java.awt.SystemTray/*** 功能:* 作者:cxf* 日期:2023年05月06日*/
object SetStorageLevel {def main(args: Array[String]): Unit = {//创建Spark配置对象val conf = new SparkConf().setAppName("SetStorageLevel") //设置应用名称.setMaster("local[*]") //设置主节点位置(本地调试>// 基于Spark配置对象创建Spark容器val sc = new SparkContext(conf)//去除Spark运行信息Logger.getLogger("org").setLevel(Level.OFF)Logger.getLogger("com").setLevel(Level.OFF)System.setProperty("spark.ui.showConsoleProgress", "false")Logger.getRootLogger().setLevel(Level.OFF)//创建RDDval rdd = sc.textFile("hdfs://master:9000/park/words.txt")//将rdd标记为持久化,采用默认存储级别- StorageLevel.MEMORY_ONLYrdd.persist() //无参持久化方法//对rdd做扁平映射,得到rdd1val rdd1 = rdd.flatMap(_.split(" "))//将rdd1持久化都磁盘rdd1.persist(StorageLevel.DISK_ONLY)//将rdd1映射成二元组,得到rdd2val rdd2 = rdd1.map((_, 1))//将rdd2持久化到内存,溢出的数据持久化到磁盘rdd2.persist(StorageLevel.MEMORY_AND_DISK)//第一次行动算子,对标记为持久化的RDD进行不同级别的持久化曹println("元素个数:" + rdd2.count)//第二次行动算子,直接利用rdd2的持久化数据进行操作,无须从头进行计算rdd2.collect.foreach(println)}}

运行程序,查看结果

在这里插入图片描述

三、利用Spark WebUI查看缓存

最好重启Spark Shell
在这里插入图片描述
(一)创建RDD并标记为持久化
在这里插入图片描述
(二)Spark WebUI查看RDD存储信息
在这里插入图片描述
收集RDD数据
在这里插入图片描述
刷新WebUI,发现出现了一个ParallelCollectionRDD的存储信息,该RDD的存储级别为MEMORY,持久化的分区为8,完全存储于内存中。
在这里插入图片描述
单击ParallelCollectionRDD超链接,可以查看该RDD的详细存储信息
在这里插入图片描述
执行以下命令,创建rdd2,并将rdd2持久化到磁盘
在这里插入图片描述
刷新上述WebUI,发现多了一个MapPartitionsRDD的存储信息,该RDD的存储级别为DISK,持久化的分区为8,完全存储于磁盘中。
在这里插入图片描述
(三)将RDD从缓存中删除
在这里插入图片描述
刷新上述WebUI,发现只剩下了MapPartitionsRDD,ParallelCollectionRDD已被移除。
在这里插入图片描述

http://www.lryc.cn/news/70177.html

相关文章:

  • Nginx(四)
  • 【fps系统重构】-观察cpu、memroy、io -iostat
  • iptables 添加,删除,查看,修改,及docker运行时修改端口
  • Liunx安装Android Studio
  • 8、Linux C/C++ 实现MySQL的图片插入以及图片的读取
  • 【搭建轻量级图床】本地搭建LightPicture开源图床管理系统 - 异地远程访问
  • 微信小程序全局路由拦截
  • 截图自动添加水印(macOS/windows)
  • 大学四年,我建议你这么学网络安全
  • Spring Boot整合Redis缓存并使用注解
  • 通知可以根据切入点表达式来进行增强,也可以根据自己的注解值来进行增强
  • <Python实际应用>做一个简单的签到投屏系统
  • 时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测
  • Baumer工业相机堡盟工业相机使用BGAPISDK将工业相机设为Burst模式以及该模式的优势以及行业应用(C++)
  • BERT输入以及权重矩阵形状解析
  • 3 个令人惊艳的 ChatGPT 项目,开源了!
  • 一、12.C++内存管理
  • ensp实践dhcp服务
  • 【王道·计算机网络】第六章 应用层
  • 【论文解读】(如何微调BERT?) How to Fine-Tune BERT for Text Classification?
  • 工程师是怎样对待开源
  • Spring Boot日志系统大揭秘:从零开始学习Spring Boot日志:常见问题解答和最佳实践
  • 【06】Nginx之反向代理
  • TCP是面向字节流的协议
  • 读书笔记——《when breath becomes air》《超越自卑》
  • CMD与DOS脚本编程【第二章】
  • 面试字节,过关斩将直接干到 3 面,结果被吊打了?
  • OpenCV在iOS端的集成及Mat和UIImage互相转化(附源码)
  • 5月跳槽会有风险,不跳也会有?
  • 【小白版】最简单的 goland package 教程包括自定义包的使用