当前位置: 首页 > news >正文

Spark任务优化分析

一、背景

首先需要掌握 Spark DAG、stage、task的相关概念

Spark的job、stage和task的机制论述 - 知乎

task数量和rdd 分区数相关

二、任务慢的原因分析

找到运行时间比较长的stage

再进去看里面的task

可以看到某个task 读取的数据量明显比其他task 较大。

如果是sql 任务进入到 SQL 页面看到 对应的执行卡在哪里,然后分析,如下图是hash id、actor_name,可以看到是group by 数据有倾斜。

group by 数据倾斜问题,可以参考hive group by 数据倾斜问题同样处理思路。

https://zhugezifang.blog.csdn.net/article/details/127447167

http://www.lryc.cn/news/189626.html

相关文章:

  • 最新数据库流行度最新排名(每月更新)
  • Python:如何在一个月内学会爬取大规模数据
  • K8S云计算系列-(4)
  • 【Mybatis源码】IDEA中Mybatis源码环境搭建
  • VUE如何使得大屏自适应的几种方法?
  • API接口安全运营研究(内附官方开发平台api接口接入方式)
  • 信钰证券:股票交易费用计算方法?
  • 通过js获取用户网络ip地址
  • 微信小程序wxml使用过滤器
  • 内网渗透面试问题
  • Go语言函数进阶:值传递、引用传递、函数式编程
  • 数据结构 堆——详细动画图解,形象理解
  • 使用pymodbus进行modbus-TCP通信
  • 2. redis常见数据类型
  • 多测师肖sir_高级金牌讲师_python之结构语句005
  • 用3-8译码器实现全减器
  • 招投标系统简介 企业电子招投标采购系统源码之电子招投标系统 —降低企业采购成本
  • Linux Centos7 下使用yum安装的nginx平滑升级
  • C/S架构学习之多线程实现TCP并发服务器
  • iPhone手机记笔记工具选择用哪个
  • MyBatis动态SQL(if、choose、when和otherwise)标签
  • idea将jar包deploy到本地仓库
  • 麻省理工学院与Meta AI共同开发StreamingLLM框架,实现语言模型无限处理长度
  • 记录 K8S 挂了的解决经过
  • Flink---11、状态管理(按键分区状态(值状态、列表状态、Map状态、归约状态、聚合状态)算子状态(列表状态、广播状态))
  • Vue3中使用tinymce全功能演示,包括开源功能
  • There was an error committing your changes: File could not be edited
  • 10月9日,每日信息差
  • 【软考设计师】S01 数据结构 E01 线性结构 P01 线性表
  • nginx配置https 访问