当前位置: 首页 > news >正文

Hive Sql整体优化思路

如果遇到sql性能问题,可以先查看4040页面的sql执行信息。一个sql解析为多个stage,一个stage分为多个task。

对问题Sql的某一个stage,基本的分析思路如下:

  1. 所有的task都慢,检查下是否有笛卡尔积(关联字段重复值、关联字段是否有null值、关联过程中出现重复值等)、分桶数是否太少。

  1. 只有几个task很慢(大部分task都已经执行完成),检查下是否倾斜问题:存储倾斜(分桶不均匀等)、计算倾斜(关联条件中有null、重复值、关联码表)。

  1. 如果分发到某个节点上的task都慢,到该task所在的服务器,检查cpu、io、内存、硬盘的性能。

  1. task数太多(几千到上万)而且每个task用时较少,检查表的小文件是否太多。

  1. task数太少(几十个以内甚至只有几个)而且每个task时间很长,检查表的分桶数是否太少。

  1. 所有的task执行之间都比较平均,每个task的执行时间也挺快,但是sql总的执行时间很长。检查同时处于running状态的task个数,确认资源配置是否太低。

  1. 如果是insert ... select ...,检查源表是否有数据倾斜。

  1. 如果整个Inceptor突然变慢,检查慢的task是否在同一个节点,如果是,重点检查该节点的硬件是否正常或出现损坏,如果不是,检查交换机、网络以及集群的active角色是否出现过切换。

  1. 查看执行计划,检查是否有谓词下推失败等情况。

jstack Inceptor_server_pid,搜索 BLOCKED、waiting for 关键字。

http://www.lryc.cn/news/19649.html

相关文章:

  • 【华为OD机试模拟题】用 C++ 实现 - 数组的中心位置(2023.Q1)
  • 取指定数值的地址 (int 转 void *)
  • C#的多线程、线程池和Task
  • Day20【元宇宙的实践构想06】—— 元宇宙与Web3.0
  • 极限熵和冗余度
  • 女生学习大数据专业未来前景怎么样
  • 主题模型实践
  • 按字典序排列的最小的等价字符串[拆解并查集]
  • 操作系统——6.系统调用
  • JavaScript DOM操作
  • 【数据结构】顺序表
  • 【人工智能 AI 】RPA 架构师需要具备的技能有哪些?RPA Solution Architect
  • 【模拟集成电路】鉴频鉴相器设计(Phase Frequency Detector,PFD)
  • 【Linux】进程间通信介绍 | 管道
  • 这次说说腾讯的一场 35K—55K 的 Android 高工面试
  • Jenkins第一讲
  • 变分推断 | MATLAB实现VBMC变分贝叶斯蒙特卡洛模拟的贝叶斯推断
  • 代码随想录【Day25】| 216. 组合总和 III、17. 电话号码的字母组合
  • web中git漏洞的形成的原理及使用
  • 【SPSS】单样本T检验分析详细操作教程(附案例实战)
  • 计算机网络笔记、面试八股(三)—— HTTPS协议
  • 浅谈liunx init.d 和 rc.local 两种起动方式
  • 元宇宙+教育,正在引发哪些剧烈变革?机会在哪里?丨圆桌实录
  • 追梦之旅【数据结构篇】——详解C语言实现顺序队列
  • 使用自己的数据集Fine-tune PaddleHub预训练模型
  • 带组态物联网平台源码 代码开源可二次开发 web MQTT Modbus
  • 计算机网络的发展历程
  • 【华为OD机试模拟题】用 C++ 实现 - 不含 101 的数(2023.Q1)
  • 面试题-下单后位置信息上报的方案
  • 视觉人培训团队把它称之为,工业领域人类最伟大的软件创造,它的名字叫Halcon