当前位置: 首页 > news >正文

【大数据面试题】35 Spark 怎么做优化?

一步一个脚印,一天一道大数据面试题

博主希望能够得到大家的点赞收,藏支持!非常感谢~
点赞,收藏是情分,不点是本分。祝你身体健康,事事顺心!

Spark 如何做优化一直是面试过程中常问的问题。那么这次也仅以此篇文章总结梳理,希望对大家有帮助。

通用优化

Spark 一般遇到了报错,紧急处理时,第一时间能想到的处理方法。
不过这样的方法使用范围较为有限。

  1. 增大资源
    增大 executor 的 cpu 核,内存。

  2. 减少 shuffle 输入数据
    做多一些 filter 过滤,输入数据少了,便不容易报错。

Spark 任务优化

能在 Spark 计算任务中进行配置,修改而做的优化。

  1. 数据倾斜
    shuffle 可以说是 spark 最容易报错的地方,而深层原因就是容易到时 shuffle 报错的主要原因。
    1.1. 定位数据倾斜:
    Spark UI 中看到个别executor 处理的数据量远大于其它 executor,并出现了报错。
    1.2. 增大并行度:
    可能是并行度太小,导致个别 executor 处理数据量过大,增大并行度能减小报错的可能。
    就像 100份工作随机给 5 人做,调整到随机给 10 人做的区别。
// 增大 DataFrame 的分区数
dataFrame.repartition(100
http://www.lryc.cn/news/392171.html

相关文章:

  • 2024年保安员职业资格考试题库大数据揭秘,冲刺高分!
  • 怎么搭建个人博客教程,附云主机选购指南
  • 使用Llama3/Qwen2等开源大模型,部署团队私有化Code Copilot和使用教程
  • C语言_结构体初阶(还未写完)
  • MyBatis-Plus:快速入门
  • 【高级篇】第9章 Elasticsearch 监控与故障排查
  • 【前端】上传和下载zip文件,有进度条(el-progess)
  • 2024年软件测试面试题,精选100+,附答案+文档
  • 在vue项目的.gitignore文件忽略不想要提交到git仓库的文件
  • 时序(流式)图谱数据仓库AbutionGraph功能介绍-Streaming Graph OLAM Database
  • windows实现Grafana+Loki+loki4j轻量级日志系统,告别沉重的ELK
  • 跟《经济学人》学英文:2024年06月01日这期 The side-effects of the TikTok tussle
  • Ubuntu安装PostgreSQL
  • 【HarmonyOS NEXT】鸿蒙如何让List组件不满一屏时,还要能滑动和回弹
  • JDK-SPI-服务提供者接口
  • 【docker】容器内配置环境变量
  • Java 乐观锁与悲观锁
  • python学习2-数据结构与算法-链表
  • 项目一 nfs 共享服务器 Haproxy 代理 Keepalive 高可用集群
  • TCP粘包解决方法
  • 高职人工智能专业实训课之“生成对抗网络(GAN)”
  • 【MySQL系列】隐式转换
  • 亿发:信息化建设or面子工程?究竟什么才是真正的信息化解决方案
  • 【微信小程序开发实战项目】——如何制作一个属于自己的花店微信小程序(1)
  • 树形结构C语言的实现
  • 小程序渗透测试的两种方法——burpsuite、yakit
  • 代码随想录训练营Day56
  • S32K3 工具篇4:如何在S32DS中使用lauterbach下载
  • 深度神经网络语言识别
  • STM32自己从零开始实操07:电机电路原理图