当前位置：首页 > news >正文

spark性能调优 | 内存优化

news 2025/8/13 3:36:41

目录

- 我们先了解一下有哪些内存
- 温馨提示
- RDD示范(spark版本2.1.1)
- RDD进行优化
- Df和Ds进行示范

我们先了解一下有哪些内存

 1.storage内存   存储数据，缓存         可预估2.shuffle内存   计算join groupby     不可预估spark1.6之前  静态管理的，spark1.6之后变成动态管理  默认0.5

温馨提示

在公司尽量不要写rdd(性能不好)

RDD示范(spark版本2.1.1)

我们转成rdd去跑任务，看看内存占有多大
在这里插入图片描述

我们也可以去excutor看内存大小
显示红色，是因为我写了while循环

RDD进行优化

看官网
https://spark.apache.org/docs/2.4.5/configuration.html#compression-and-serialization
我们采用kryo(只支持rdd)
在这里插入图片描述

我们需要看看rdd的缓存级别
https://spark.apache.org/docs/2.4.5/rdd-programming-guide.html#which-storage-level-to-choose
使用序列化的缓存级别

发现1.7g直接变成了270m，优化还是挺大的！

Df和Ds进行示范

看官网
https://spark.apache.org/docs/2.4.5/sql-getting-started.html#creating-datasets
Ds会专门使用自己的偏码进行序列化
在这里插入图片描述

内存大小34.2M

我们还可以进行序列化(变化不大)

进行优化之后33.9M

http://www.lryc.cn/news/233655.html

相关文章：

【PG】PostgreSQL高可用之自动故障转移-repmgrd

操作系统OS/存储管理/内存管理/内存管理的主要功能_基本原理_要求

【手写数据库toadb】SQL解析器的实现架构，create table/insert 多values语句的解析树生成流程和输出结构分析

设计模式-备忘录模式-笔记

机器学习—基本术语

pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed模型训练

基于PHP的纺织用品商城系统

Go使用命令行输出二维码

最长连续序列[中等]

设计模式-状态模式-笔记

Java中for、foreach、stream区别和性能比较

[CSS] 文本折行

033-从零搭建微服务-日志插件（一）

短期经济波动：均衡国民收入决定理论(三)

电力感知边缘计算网关产品设计方案-网关软件架构

最新AI创作系统ChatGPT系统运营源码/支持最新GPT-4-Turbo模型/支持DALL-E3文生图

Java使用Redis的几种客户端介绍

程序员的护城河

常见面试题-MySQL软删除以及索引结构

信号的机制——信号处理函数的注册

JS-项目实战-鼠标悬浮变手势（鼠标放单价上生效）

redis运维(十一) python操作redis

黑马程序员微服务第五天课程分布式搜索引擎2

什么是UV贴图？

从哪里下载 Oracle database 11g 软件

Ingress安全网关

Jmeter控制RPS

【Nginx】转发配置nginx.conf

uniapp实现下载图片到本地

spring cloud-注册中心（Eureka）