当前位置: 首页 > news >正文

HIVE优化之不需要参数优化

#1.数据倾斜
什么是数据倾斜?
一部分数据多
一部分数据少
造成的结果: MR运行过慢 主要是shuffle和reduce过程慢

分组聚合导致数据倾斜

Hive未优化的分组聚合
在这里插入图片描述
方法1:在MAP端直接聚合(分组聚合优化),减少Key
MR失败

方法2:随机数,按随机数放入reduce中 解决数据倾斜 第二个Jobs按分组字段分区
因为生成随机了,所以按

方法1和方法2 一起用是不影响的
先进行聚合 然后按随机数分配reduce 再启动一个job dierge job 按分组字段分区

join的数据倾斜
最后根据KEY进行分组
在这里插入图片描述
这里的数据倾斜的现象和影响是什么呢?
1.map join
2. skew join
牺牲一个job为代价解决
将产生数据倾斜的Key去单独跑一个job
其实就是啥, map将大K提出来重新一个job ,剩下的直接生成结果集,然后job2的结果最后也注入结果集
根据参数判断
在这里插入图片描述
这里晚点多看一下
大表Join 对倾斜Key的表的key打散,对关联的另一张表的key扩容
为什么????

reduce 并行度
可以指定并行度,也可以自动
可以设置最大值
为什么最大默认1009
在这里插入图片描述

可以设置reduce task数据量 估算Reduce并行度

reduce task量与数据量相关合理么?
不合理,因为收到的是map处理后的数据,有可能已经变小很多了,在reduce端小文件
但是无法获取map的数据量

在这里插入图片描述
3表join OBC如何优化?
在这里插入图片描述
在这里插入图片描述
优化后: 先进行小表合并,

谓词下推
谓词下推(predicate pushdown)是指,尽量将过滤操作前移,以减少后续计算步骤的数据量。
CBO优化也会完成一部分的谓词下推优化工作,因为在执行计划中,谓词越靠前,整个计划的计算成本就会越低。
–是否启动谓词下推(predicate pushdown)优化
set hive.optimize.ppd = true;
白话:
在这里插入图片描述
谓词下推:先执行过滤条件再执行join

在这里插入图片描述

hive本地模式
在这里插入图片描述
开启自动转换模式
符合条件用本地 不符合条件用集群
与直接设置HADOOP参数语句的不同
一个自动,一个主动。

set mapreduce.framework.name=local;
http://www.lryc.cn/news/114075.html

相关文章:

  • 前端 select 标签如何创建下拉菜单?
  • 基于 eclipse-temurin 构建国内时区,地区,语言的docker镜像
  • RunnerGo配置场景时接口模式该怎么选
  • 系统分享UIActivity
  • 常用抓包工具
  • 自然语言处理学习笔记(五)————切分算法
  • SQL-方法论
  • [Python从零到壹] 六十八.图像识别及经典案例篇之图像特效(毛玻璃、浮雕、油漆和模糊特效变换)
  • undefined与null的区别
  • Unity之获取用户地理位置
  • TC3XX - MCAL知识点(二十):CAN MCAL配置及代码实战(CAN/CANFD/extenen CAN)
  • QT生成Debug和Release发布版后,运行exe缺少dll问题
  • 企业进销存管理流程有哪些? 附进销存管理系统
  • RPC原理与Go RPC详解
  • JavaScript:异步编程的发展
  • 排序第二课【选择排序】直接选择排序 与 堆排序
  • 【chrome扩展开发】vue-i18n使用问题及解决方案
  • 【Vue3】localStorage读取数组并赋值的问题
  • 华为harmonyos4.0鸿蒙4.0安装谷歌服务框架Play商店,解决从服务器检索信息时出错
  • pcl 滤波
  • 前端js--旋转幻灯片
  • 解决mvn clean install遇到testng单元测试失败时打包也失败的问题
  • RISC-V基础之函数调用(二)栈与寄存器(包含实例)
  • 解析器模式(C++)
  • 电子元器件选型与实战应用—02 电容选型第1篇(8000字)
  • 试图将更改推送到 GitHub,但是远程仓库已经包含了您本地没有的工作(可能是其他人提交的修改)
  • Lamport向量时钟算法的C++实现:在分布式系统中生成事件的部分排序并检测因果关系违规
  • 多个excel的sheet合并到一个excel下
  • 【Fegin技术专题】「原生态」打开Fegin之RPC技术的开端,你会使用原生态的Fegin吗?(中)
  • leetcode--每日一题--822--344(使用异或来进行数据交换)