当前位置: 首页 > news >正文

spark性能调优 | 内存优化

目录

    • 我们先了解一下有哪些内存
    • 温馨提示
    • RDD示范(spark版本2.1.1)
    • RDD进行优化
    • Df和Ds进行示范

我们先了解一下有哪些内存

 1.storage内存   存储数据,缓存         可预估2.shuffle内存   计算join groupby     不可预估spark1.6之前  静态管理的,spark1.6之后变成动态管理  默认0.5

温馨提示

在公司尽量不要写rdd(性能不好)

RDD示范(spark版本2.1.1)

我们转成rdd去跑任务,看看内存占有多大
在这里插入图片描述
在这里插入图片描述
我们也可以去excutor看内存大小
显示红色,是因为我写了while循环
在这里插入图片描述

RDD进行优化

看官网
https://spark.apache.org/docs/2.4.5/configuration.html#compression-and-serialization
我们采用kryo(只支持rdd)
在这里插入图片描述
在这里插入图片描述
我们需要看看rdd的缓存级别
https://spark.apache.org/docs/2.4.5/rdd-programming-guide.html#which-storage-level-to-choose
使用序列化的缓存级别
在这里插入图片描述
在这里插入图片描述
发现1.7g直接变成了270m,优化还是挺大的!

Df和Ds进行示范

看官网
https://spark.apache.org/docs/2.4.5/sql-getting-started.html#creating-datasets
Ds会专门使用自己的偏码进行序列化
在这里插入图片描述
在这里插入图片描述
内存大小34.2M
在这里插入图片描述
我们还可以进行序列化(变化不大)
在这里插入图片描述
进行优化之后33.9M
在这里插入图片描述

http://www.lryc.cn/news/233655.html

相关文章:

  • 【PG】PostgreSQL高可用之自动故障转移-repmgrd
  • 操作系统OS/存储管理/内存管理/内存管理的主要功能_基本原理_要求
  • 【手写数据库toadb】SQL解析器的实现架构,create table/insert 多values语句的解析树生成流程和输出结构分析
  • 设计模式-备忘录模式-笔记
  • 机器学习—基本术语
  • pytorch单精度、半精度、混合精度、单卡、多卡(DP / DDP)、FSDP、DeepSpeed模型训练
  • 基于PHP的纺织用品商城系统
  • Go使用命令行输出二维码
  • 最长连续序列[中等]
  • 设计模式-状态模式-笔记
  • Java中for、foreach、stream区别和性能比较
  • [CSS] 文本折行
  • 033-从零搭建微服务-日志插件(一)
  • 短期经济波动:均衡国民收入决定理论(三)
  • 电力感知边缘计算网关产品设计方案-网关软件架构
  • 最新AI创作系统ChatGPT系统运营源码/支持最新GPT-4-Turbo模型/支持DALL-E3文生图
  • Java使用Redis的几种客户端介绍
  • 程序员的护城河
  • 常见面试题-MySQL软删除以及索引结构
  • 信号的机制——信号处理函数的注册
  • JS-项目实战-鼠标悬浮变手势(鼠标放单价上生效)
  • redis运维(十一) python操作redis
  • 黑马程序员微服务 第五天课程 分布式搜索引擎2
  • 什么是UV贴图?
  • 从哪里下载 Oracle database 11g 软件
  • Ingress安全网关
  • Jmeter控制RPS
  • 【Nginx】转发配置nginx.conf
  • uniapp实现下载图片到本地
  • spring cloud-注册中心(Eureka)