当前位置: 首页 > news >正文

数据倾斜优化

数据倾斜发生的原因有哪些?

map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特性、建表时考虑不周等原因造成的reduce 上的数据量差异过大。

数据倾斜解决方式有哪些

group by 导致的数据倾斜
1.开启Map-Side聚合后,数据会现在Map端完成部分聚合工作。这样一来即便原始数据是倾斜的,经过Map端的初步聚合后,发往Reduce的数据也就不再倾斜了。最佳状态下,Map-端聚合能完全屏蔽数据倾斜问题。
2.使用skew-GroupBy 优化,
Skew-GroupBy的原理是启动两个MR任务,第一个MR按照随机数分区,将数据分散发送到Reduce,完成部分聚合,第二个MR按照分组字段分区,完成最终聚合。
相关参数如下:

--启用分组聚合数据倾斜优化
set hive.groupby.skewindata=true;

join导致的数据倾斜
1.使用map join算法,join操作仅在map端就能完成,没有shuffle操作,没有reduce阶段,自然不会产生reduce端的数据倾斜。该方案适用于大表join小表时发生数据倾斜的场景。
2.skew join
skew join的原理是,为倾斜的大key单独启动一个map join任务进行计算,其余key进行正常的common join。原理图如下:在这里插入图片描述

http://www.lryc.cn/news/146085.html

相关文章:

  • Acwing796.子矩阵的和
  • 【ELK日志收集系统】
  • Java项目中实现信号的连续接收
  • vue权限管理——按钮控制
  • jvm的内存区域
  • 即时通讯开发中的性能优化技巧
  • flinkcdc同步完全量数据就不同步增量数据了
  • VBA:Application.GetOpenFilename打开指定文件夹里的excel类型文件(xls、xlsx)
  • 利用R作圆环条形图
  • JavaScript(笔记)
  • 软件工程(九) UML顺序-活动-状态-通信图
  • JVM 是怎么设计来保证new对象的线程安全
  • 【JavaEE基础学习打卡00】该专栏知识大纲在这里!
  • C# 跨线程访问窗体控件
  • Ctenos7安装mysql-8.1.0/tomcat-9.0.80/LNMT部署
  • input时间表单默认样式修改(input[type=“date“])
  • 首页搜索框传递参数,并在搜索页面中的搜索框中进行显示,搜索框绑定回车键进行搜索
  • 【Vue3+Ts】项目启动准备和配置项目代码规范和css样式的重置
  • Java【手撕双指针】LeetCode 15. “三数之和“, 图文详解思路分析 + 代码
  • Flutter:自定义组件的上下左右弹出层
  • C++处理终端程序中断或意外退出的情况
  • 分布式锁:业务锁和定时任务锁
  • 路由器的简单概述(详细理解+实例精讲)
  • Mapper.xml文件解析
  • ES 7.6 - JAVA应用基础操作篇
  • com.squareup.okhttp3:okhttp 组件安全漏洞及健康度分析
  • 【Unity的HDRP渲染管线下用Steam VR串流结合使用遇到的各种问题_SteamVR 插件和Pico串流助手】
  • Unity——音乐、音效
  • Ubuntu 23.10 将首次推出基于 Flutter 的新 Ubuntu 商店
  • linux scatterlist阅读三