当前位置：首页 > news >正文

(12)Hive调优——count distinct去重优化

news 2025/7/9 6:02:41

离线数仓开发过程中经常会对数据去重后聚合统计，count distinct使得map端无法预聚合，容易引发reduce端长尾，以下是count distinct去重调优的几种方式。

解决方案一：group by 替代

原sql 如下：

#=====7日、14日的app点击的用户数（user_id去重统计）
selectgroup_id,app_id,
-- 7日内UVcount(distinct case when dt >= '${7d_before}' then user_id else null end)  as 7d_uv, 
--14日内UVcount(distinct case when dt >= '${14d_before}' then user_id else null end) as 14d_uv 
from tbl
where dt >= '${14d_before}'
group by group_id, --渠道app_id;  --app

优化思路：group by两阶段聚合

#=====7日、14日的app点击的用户数（user_id去重统计）
selectgroup_id,app_id,
-- 7日内UVsum(case when 7d_cnt > 0 then 1 else 0 end) as 7d_uv,
--14日内UVsum(case when 14d_uv > 0 then 1 else 0 end) as 14d_uvfrom (selectgroup_id,app_id,-- 7日内各渠道各app下的每个用户的点击量count(case when dt >= '${7d_before}' then user_id else null end)  as 7d_cnt,-- 14日内各渠道各app下的每个用户点击量count(case when dt >= '${14d_before}' then user_id else null end) as 14d_uvfrom tblwhere dt >= '${14d_before}'group by group_id,app_id,user_id) tmp1
group by group_id,app_id;

方案一弊端：数据倾斜风险

解决方案一通过两阶段group by(分组聚合) 对count (distinct) 进行改造调优，需要注意的是：如果分组字段user_id在tbl 表中存在大量的重复值，group by底层走shuffle，会有数据倾斜的风险，因此方案一还可以进一步优化。

解决方案二：group by调优

1）添加随机数，两阶段聚合（推荐）

#===============优化前
insert overwrite table tblB partition (dt = '2022-10-19')
selectcookie_id,event_query,count(*)  as cnt
from tblA
where dt >= '20220718'and dt <= '20221019'and event_query is not null
group by cookie_id, event_query#===============优化后
insert overwrite table tblB partition (dt = '2022-10-19')
selectsplit(tkey, '_')[1] as cookie_id,event_query,#--- 求出最终的聚合值sum(cnt)   as cnt
from (selectconcat_ws('_', cast(ceiling(rand() * 99) as string), cookie_id) as tkey,event_query,#---将热点Key值：cookie_id 进行打散后，先局部聚合得到cntcount(*)  as cntfrom tblAwhere dt >= '20220718'and dt <= '20221019'and event_query is not null#--- 第一阶段：添加[0-99]随机整数，将热点Key值：cookie_id 进行打散（ M -->R）group by concat_ws('_', cast(ceiling(rand() * 99) as string), cookie_id),event_query) temp#--- 第二阶段：对拼接的key值进行切分，还原原本的key值split(tkey, '_')[1] =cookie_id （ R -->R）
group by split(tkey, '_')[1], event_que

优化思路为：

第一阶段：对需要聚合的Key值添加随机后缀进行打散，基于加工后的key值进行初步聚合（M-->R1）
第二阶段：对加工后的key值进行切分还原，对第一阶段的聚合值进行再次聚合，求出最终结果值（R1-->R2）

2）开启Map端聚合

#--开启Map端聚合，默认为true
set hive.map.aggr = true;
#--在Map 端预先聚合操作的条数
set hive.groupby.mapaggr.checkinterval = 100000;

该参数可以将顶层的聚合操作放在 Map 阶段执行，从而减轻shuffle清洗阶段的数据传输和 Reduce阶段的执行时间，提升总体性能。

3）数据倾斜时自动负载均衡

#---有数据倾斜的时候自动负载均衡（默认是 false）
set hive.groupby.skewindata = true;

开启该参数后，当前程序会自动通过两个MapReduce来运行，将M->R阶段拆解成 M->R->R阶段

第一个MapReduce自动进行随机分布到Reducer中（负载均衡），每个Reducer做部分聚合操作，输出结果
第二个MapReduce将上一步聚合的结果再按照业务（group by key）进行处理，保障相同的key分发到同一个reduce做最终聚合。

查看全文

http://www.lryc.cn/news/301002.html

记录 | 验证pytorch-cuda是否安装成功

LeetCode 239.滑动窗口的最大值 Hot100 单调栈

463. Island Perimeter(岛屿的周长)

如何解决缓存和数据库的数据不一致问题

linux系统下vscode portable版本的python环境搭建003：venv

使用TinyXML-2解析XML文件

Linux：docker在线仓库（docker hub 阿里云）基础操作

C语言程序设计（第四版）—习题7程序设计题

ZCC6982-同步升压充双节锂电池充电芯片

定时器(基本定时器、通用定时器、高级定时器)

009集——磁盘详解——电脑数据如何存储在磁盘

鸿蒙开发-HarmonyOS UI架构

Flutter 动画（显式动画、隐式动画、Hero动画、页面转场动画、交错动画）

用HTML5 Canvas创造视觉盛宴——动态彩色线条效果

云原生介绍与容器的基本概念

Flash存储

Day 44 | 动态规划完全背包、518. 零钱兑换 II 、 377. 组合总和 Ⅳ

使用PaddleNLP UIE模型提取上市公司PDF公告关键信息

软件工程师，OpenAI Sora驾到，快来围观

【Linux 04】编辑器 vim 详细介绍

KMP算法详解

ubuntu22.04@laptop OpenCV Get Started: 013_contour_detection

[ai笔记5] 个人AI资讯助手实战

QT+OSG/osgEarth编译之八十九：osgdb_ply+Qt编译（一套代码、一套框架，跨平台编译，版本：OSG-3.6.5插件库osgdb_ply）

机器人专题：我国机器人产业园区发展现状、问题、经验及建议

算法沉淀——哈希算法（leetcode真题剖析）

深入理解Redis哨兵原理

MySQL-存储过程（PROCEDURE）

linux系统监控工具prometheus的安装以及监控mysql

初识tensorflow程序设计模式