当前位置：首页 > news >正文

Spark数据倾斜_产生原因及定位处理办法_生产环境

news 2025/8/5 13:50:49

在最近的项目中，历史和实时数据进行关联平滑时出现了数据倾斜，产生了笛卡尔积，具体现象如下：运行内存175GB，核数64，运行代码时，查看SparkUI界面的active jobs ，数据输入是1G，成功的stage为0，一直是0/120，由此，通过排查，的确发生笛卡尔积

Spark数据倾斜产生的原因及解决办法：

Spark数据倾斜主要在shuffle过程中由于不同的key对应的数据量不同导致，具体表现是不同的task处理的数据量不同。在Spark作业中，如果存在可能导致数据倾斜的key，可以考虑将这个key进行过滤，滤除可能导致数据倾斜的数据，从而在Spark作业中避免数据倾斜。另外，提高shuffle过程中的reduce端并行度，即增加reduce端的task数量，可以使得每个task分配到的数据量减少，从而缓解数据倾斜问题。

可参考文章：

Spark如何处理数据倾斜-CSDN博客

http://www.lryc.cn/news/234661.html

相关文章：

2023OceanBase年度发布会后，有感

ubuntu18.04中代码迁移到20.04报错

QQ五毛项目记

小程序实现登录持久化

2023年亚太杯数学建模思路 - 案例：ID3-决策树分类算法

C复习-输入输出函数+流

duplicate复制数据库单个数据文件复制失败报错rman-03009 ora-03113

golang 解析oracle 数据文件头

van-popup滑动卡顿并且在有时候在ios上经常性滑动卡顿的情况

YOLOv7独家原创改进：最新原创WIoU_NMS改进点，改进有效可以直接当做自己的原创改进点来写，提升网络模型性能精度

ubuntu20.04中编译zlib1.2.11(源码编译)

计算机毕业设计选题推荐-高校后勤报修微信小程序/安卓APP-项目实战

如何零基础自学AI人工智能

在Ubuntu或linux中为coreutils工具包的cp和mv命令添加进度条

力扣-58. 最后一个单词的长度

快递鸟荣获全球电子商务创业创新大赛总决赛一等奖

阶段七-Day02-SpringMVC

YOLOv5独家原创改进：最新原创WIoU_NMS改进点，改进有效可以直接当做自己的原创改进点来写，提升网络模型性能精度

【深度学习】pytorch快速得到mobilenet_v2 pth 和onnx

高防CDN安全防护系统在业务方面的应用

opencv(3):控制鼠标，创建 tackbar控件

UE4动作游戏实例RPG Action解析二：GAS系统播放武器绑定的技能，以及GE效果

做完这些_成为机器学习方面的专家

kubernetes|云原生| 如何优雅的重启和更新pod---pod生命周期管理实务

【总结】坐标变换和过渡矩阵（易忘记）

第十一周任务总结

Java Web——JavaScript基础

Vue3 toRaw 和 markRaw

麒麟信安助力长沙市就业与社保数据服务中心政务系统向自主创新演进