当前位置: 首页 > news >正文

如何解决数据倾斜

在这里插入图片描述
                       星光下的赶路人star的个人主页

                      臣书刷字墨淋漓,舒卷烟云势最奇

文章目录

  • 1、数据倾斜的现象
  • 2、解决办法
    • 2.1 单表聚合(group by+sum())
    • 2.2 多表关联(join)
  • 3、倾斜原因

1、数据倾斜的现象

部分Reduce一直运行,时间明显比已完成的长20倍以上

2、解决办法

2.1 单表聚合(group by+sum())

1、开启map端预聚合:hive.map.aggr=true
2、打散、二次聚合:
开启参数:hive.groupby.skewindata=true
sql手动实现

2.2 多表关联(join)

1、大小表:map join
2、大大表:
方法一:将倾斜的key单独拿出来做mapjoin
hive。optimize。skewjoin=true
方法二:打散倾斜key,扩容对方的key
sql手动实现

3、倾斜原因

1、数据本身是不均匀的(最常见,最正常的)
2、null值
没有意义的null值,过滤掉
有意义的null值,正常处理

在这里插入图片描述
                      您的支持是我创作的无限动力

在这里插入图片描述
                      希望我能为您的未来尽绵薄之力

在这里插入图片描述
                      如有错误,谢谢指正;若有收获,谢谢赞美

http://www.lryc.cn/news/207155.html

相关文章:

  • 宏定义实现offsetof
  • YOLOv5— Fruit Detection
  • (PyTorch)PyTorch中的常见运算(*、@、Mul、Matmul)
  • cmd 命令关闭占用端口
  • PG14启动报错“max_stack_depth“ must not exceed 7680kB
  • BES2700 蓝牙协议之RFCOMM通道使用方法
  • 简单介绍一下迁移学习
  • PHP 同城服务共享茶室小程序系统是如何实现的?
  • JavaScript对象与原型
  • 论文解读:《DataPype:用于计算机辅助药物设计的全自动统一软件平台》
  • 2023年Flutter教程_Flutter+Getx仿小米商城项目实战视频教程-V3版
  • 【Spring Boot系列】- Spring Boot事务应用详解
  • 28. 使用 k8e 玩转 kube-vip with Cilium‘s Egress Gateway 特性
  • webrtc ios build signing
  • 【接口测试】Jmeter接口实战-Dubbo接口+造10W数据测试(详细)
  • RabbitMQ原理(四):MQ的可靠性
  • YOLOv5算法改进(20)— 如何去写YOLOv5相关的论文(包括论文阅读+规律总结+写作方法)
  • Kotlin基础——函数、变量、字符串模板、类
  • 联邦存款保险公司与银行失败和失败银行列表数据集
  • 【FPGA】IIC协议通用主机接口的设计与实现详解
  • 《红蓝攻防对抗实战》八.利用OpenSSL对反弹shell流量进行加密
  • 手机桌面待办事项APP推荐
  • 2023NOIP A层联测18 划分
  • pc与android设备进行通信
  • 【网安大模型专题10.19】论文6:Java漏洞自动修复+数据集 VJBench+大语言模型、APR技术+代码转换方法+LLM和DL-APR模型的挑战与机会
  • const 和 volatile 在实例成员函数的应用
  • 比Nginx测试桩更方便,ShenYu网关的Mock插件
  • IDEA: 自用主题及字体搭配推荐
  • Qt中的枚举变量,Q_ENUM,Q_FLAG以及Qt中自定义结构体、枚举型做信号参数传递
  • 【C++】priority_queue仿函数