当前位置: 首页 > news >正文

Spark SQL,DF,RDD cache常用方式

RDD中的cache

调用cache方法

val testRDD = sc.parallelize(Seq(elementA, elementB, elementC)).map(x => (x._1, x._2)).setName("testRDD")testRDD.cache()

dataframe中的cache

利用catalog以表的形式对数据进行缓存

import org.apache.spark.SparkConf
import org.apache.spark.sql.{SaveMode, SparkSession}
import org.apache.spark.sql.functions.udfval conf = new SparkConf().setAppName(s"test_app")
val spark = SparkSession.builder().config(conf).getOrCreate()
spark.read.parquet(s"${BASEPATH}/dws_live_mid_stat_order_di/event_day=${event_day}").createOrReplaceTempView(s"dwd_flow_sessionid_di")spark.catalog.cacheTable("dwd_flow_sessionid_di")
spark.catalog.uncacheTable("dwd_flow_sessionid_di")

SQL中的cache

    spark.sql(s"""|cache table flow_basic_tmp as|select|    *|from|    test.tmp_live_mid_stat_order_di|""".stripMargin)
UNCACHE TABLE [ IF EXISTS ] table_identifier

SQL cache 相关文档,可以懒加载 CACHE TABLE - Spark 3.5.0 Documentation

需要注意的点 :

Spark.createDateFrame需要执行

基于DF 需要执行action,才能让RDD cache住

http://www.lryc.cn/news/247288.html

相关文章:

  • Python中如何用栈实现队列
  • python模块pyDes,DES对称加密算法库
  • Centos7安装配置nginx
  • 9.Spring 整合 Redis
  • 【Java学习笔记】73 - 正则表达式
  • 【算法】滑动窗口题单——1.定长滑动窗口⭐
  • 可观测性项目开发与学习ing
  • apache-poi
  • TOD和PPS精确时间同步技术
  • 通过一个例子理解pytest的fixture的使用
  • 单片机BootLoader是咋回事?
  • python与机器学习1,机器学习的一些基础知识(完善ing)
  • 移动应用开发介绍及iOS方向学习路线(HUT移动组版)
  • vue+uniapp校园寻物失物招领平台 微信小程序1f6z5
  • Linux内核--内存管理(三)物理内存分页机制--kmalloc及slub机制
  • Shell - cron_protect.sh 监控 Python、Streaming 程序
  • MSB3541 Files 的值“<<<<<<< HEAD”无效。路径中具有非法字符。
  • 【赠书第9期】巧用ChatGPT高效搞定Excel数据分析
  • 会声会影2024旗舰版系统配置要求及格式支持
  • 【部署运维】docker:入门到进阶
  • 鸿蒙开发学习——应用程序框架
  • Linux dd命令详解:如何从标准输入或文件中读取、转换并输出数据(附实例教程和注意事项)
  • Python——常见内置模块
  • JAVA毕业设计112—基于Java+Springboot+Vue的宠物领养社区小程序(源码+数据库)
  • golang log模块使用
  • 软件开发中的抓大放小vs极致细节思维
  • java文件上传以及使用阿里云OSS
  • 相关性分析和作图
  • AlphaFold的原理及解读
  • 【ChatGLM3-6B】Docker下快速部署