当前位置：首页 > news >正文

Hive数据倾斜--处理方法

news 2025/8/24 1:26:45

1. 什么是数据倾斜？

在分布式计算场景下，大量的数据集中在某一个节点而导致一个任务的执行时间变长。而大量的节点只处理了小部分的数据，大数据组件处理海量数据的特点就是不患多，而患不均。

2. 怎么发现任务出现了数据倾斜现象

在yarn上可以查看task的执行情况，如果一个阶段中有些task很快执行完了，有些task迟迟无法结束或者运行时间减少，则大概率出现了数据倾斜的现象。

3. 描述1个数据倾斜的情景，针对这个情景给出解决方案

情景1：select count(distinct user_id) from t_user;

为什么：如果存在大量相同的user_id，而在count的时候会因为大量相同的user_id集中在同一个reducetask中，导致数据倾斜

解决方案：

1) 设置提高reduceTask的个数

2) select count(*) from(select sex from t_person group by sex) t1;

情景2：在group by分组的时候，某个key过多；

解决方案：将 key 打散

给 key 增加随机前缀

在进行 group by 之前，先给每个 user_id 增加一个随机前缀，使得原本相同的 user_id 被打散到不同的分组中。
按带前缀的 key 进行分组

对带有随机前缀的 user_id 进行分组和聚合。
去掉前缀后再分组

在第一步的基础上，去掉前缀，再进行一次分组和聚合，得到最终的结果。

情况3：在join表连接的时候课可能出现数据倾斜

解决方案：mapjoin ；大表打散、小表扩容；smbjoin

大表打散：大表打散是指将大表中的数据打散到多个分区或分桶中，以均衡各节点的负载。这通常通过在大表上引入一个随机分布的哈希值或对数据进行重新分区来实现。

小表扩容：小表扩容是指将小表的数据复制到多个节点上，以避免在连接操作中出现数据倾斜的问题。通常，小表会被广播到所有计算节点，以确保每个节点都能本地访问小表数据。

总结：

大表打散：通过添加随机分区键和重新分区，将大表数据均匀分布到多个节点。
小表扩容：将小表广播到所有节点，确保连接操作时各节点能本地访问小表数据，避免数据倾斜。

http://www.lryc.cn/news/391948.html

相关文章：

k8s流控平台apiserver详解

unity对于文件夹的操作

[Redis]哨兵机制

Vue3--Watch、Watcheffect、Computed的使用和区别

hive调优原理详解：案例解析参数配置(第17天）

华为机试HJ15求int型正整数在内存中存储时1的个数

NLP - Softmax与层次Softmax对比

HttpServer内存马

51单片机-让一个LED灯闪烁、流水灯（涉及：自定义单片机的延迟时间）

MYSQL原理、设计与应用

flask项目部署总结

【总线】AXI4第八课时：介绍AXI的 “原子访问“ ：独占访问（Exclusive Access）和锁定访问（Locked Access）

Java面试八股之MYISAM和INNODB有哪些不同

大数据面试题之数据库(2)

1421-04SF 同轴连接器

第一节-k8s架构图

【Proteus】按键的实现『⒉种』

Windows 11 安装 Python 3.11 完整教程

外呼系统的功能有哪些

【C语言】C语言 4 个编译过程详解

Linux 常见的几种编辑器的操作步骤

LabVIEW汽车转向器测试系统

image媒体组件属性配合swiper轮播

nginx的匹配及重定向

云计算【第一阶段（23）】Linux系统安全及应用

YUM——简介、安装（Ubuntu22.04）

Java面向对象练习(4.文字格斗游戏)(2024.7.4)

Python获取QQ音乐歌单歌曲

Linux系统部署MongoDB开源文档型数据库并实现无公网IP远程访问

WPF Menu实现快捷键操作