当前位置：首页 > news >正文

【大数据面试题】35 Spark 怎么做优化？

news 2025/8/23 13:20:40

一步一个脚印，一天一道大数据面试题

博主希望能够得到大家的点赞收，藏支持！非常感谢~
点赞，收藏是情分，不点是本分。祝你身体健康，事事顺心！

Spark 如何做优化一直是面试过程中常问的问题。那么这次也仅以此篇文章总结梳理，希望对大家有帮助。

通用优化

Spark 一般遇到了报错，紧急处理时，第一时间能想到的处理方法。
不过这样的方法使用范围较为有限。

增大资源
增大 executor 的 cpu 核，内存。
减少 shuffle 输入数据
做多一些 filter 过滤，输入数据少了，便不容易报错。

Spark 任务优化

能在 Spark 计算任务中进行配置，修改而做的优化。

数据倾斜
shuffle 可以说是 spark 最容易报错的地方，而深层原因就是容易到时 shuffle 报错的主要原因。
1.1. 定位数据倾斜：
Spark UI 中看到个别executor 处理的数据量远大于其它 executor，并出现了报错。
1.2. 增大并行度：
可能是并行度太小，导致个别 executor 处理数据量过大，增大并行度能减小报错的可能。
就像 100份工作随机给 5 人做，调整到随机给 10 人做的区别。

// 增大 DataFrame 的分区数
dataFrame.repartition(100

http://www.lryc.cn/news/392171.html

相关文章：

2024年保安员职业资格考试题库大数据揭秘，冲刺高分！

怎么搭建个人博客教程，附云主机选购指南

使用Llama3/Qwen2等开源大模型，部署团队私有化Code Copilot和使用教程

C语言_结构体初阶（还未写完）

MyBatis-Plus：快速入门

【高级篇】第9章 Elasticsearch 监控与故障排查

【前端】上传和下载zip文件，有进度条（el-progess）

2024年软件测试面试题，精选100+，附答案+文档

在vue项目的.gitignore文件忽略不想要提交到git仓库的文件

时序(流式)图谱数据仓库AbutionGraph功能介绍-Streaming Graph OLAM Database

windows实现Grafana+Loki+loki4j轻量级日志系统，告别沉重的ELK

跟《经济学人》学英文：2024年06月01日这期 The side-effects of the TikTok tussle

Ubuntu安装PostgreSQL

【HarmonyOS NEXT】鸿蒙如何让List组件不满一屏时，还要能滑动和回弹

JDK-SPI-服务提供者接口

【docker】容器内配置环境变量

Java 乐观锁与悲观锁

python学习2-数据结构与算法-链表

项目一 nfs 共享服务器 Haproxy 代理 Keepalive 高可用集群

TCP粘包解决方法

高职人工智能专业实训课之“生成对抗网络（GAN）”

【MySQL系列】隐式转换

亿发：信息化建设or面子工程？究竟什么才是真正的信息化解决方案

【微信小程序开发实战项目】——如何制作一个属于自己的花店微信小程序（1）

树形结构C语言的实现

小程序渗透测试的两种方法——burpsuite、yakit

代码随想录训练营Day56

S32K3 工具篇4：如何在S32DS中使用lauterbach下载

深度神经网络语言识别

STM32自己从零开始实操07:电机电路原理图