当前位置：首页 > news >正文

Spark任务优化分析

news 2025/8/3 0:28:17

一、背景

首先需要掌握 Spark DAG、stage、task的相关概念

Spark的job、stage和task的机制论述 - 知乎

task数量和rdd 分区数相关

二、任务慢的原因分析

找到运行时间比较长的stage

再进去看里面的task

可以看到某个task 读取的数据量明显比其他task 较大。

如果是sql 任务进入到 SQL 页面看到对应的执行卡在哪里，然后分析，如下图是hash id、actor_name，可以看到是group by 数据有倾斜。

group by 数据倾斜问题，可以参考hive group by 数据倾斜问题同样处理思路。

https://zhugezifang.blog.csdn.net/article/details/127447167

http://www.lryc.cn/news/189626.html

相关文章：

最新数据库流行度最新排名（每月更新）

Python：如何在一个月内学会爬取大规模数据

K8S云计算系列-(4)

【Mybatis源码】IDEA中Mybatis源码环境搭建

VUE如何使得大屏自适应的几种方法?

API接口安全运营研究(内附官方开发平台api接口接入方式）

信钰证券：股票交易费用计算方法？

通过js获取用户网络ip地址

微信小程序wxml使用过滤器

内网渗透面试问题

Go语言函数进阶：值传递、引用传递、函数式编程

数据结构堆——详细动画图解，形象理解

使用pymodbus进行modbus-TCP通信

2. redis常见数据类型

多测师肖sir_高级金牌讲师_python之结构语句005

用3-8译码器实现全减器

招投标系统简介企业电子招投标采购系统源码之电子招投标系统 —降低企业采购成本

Linux Centos7 下使用yum安装的nginx平滑升级

C/S架构学习之多线程实现TCP并发服务器

iPhone手机记笔记工具选择用哪个

MyBatis动态SQL（if、choose、when和otherwise）标签

idea将jar包deploy到本地仓库

麻省理工学院与Meta AI共同开发StreamingLLM框架，实现语言模型无限处理长度

记录 K8S 挂了的解决经过

Flink---11、状态管理（按键分区状态（值状态、列表状态、Map状态、归约状态、聚合状态）算子状态（列表状态、广播状态））

Vue3中使用tinymce全功能演示，包括开源功能

There was an error committing your changes: File could not be edited

10月9日，每日信息差

【软考设计师】S01 数据结构 E01 线性结构 P01 线性表

nginx配置https 访问