当前位置: 首页 > news >正文

【数据开发】Hive 多表join中的条件过滤与指定分区

1、条件过滤

left join 中 on 后面加条件 where 和 and 的区别

  • 1、 on条件是在生成临时表时使用的条件,它不管and中的条件是否为真,都会保留左边表中的全部记录。
  • 2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join的含义(必须返回左表的记录)了,条件不为真的就全部过滤掉。

条件加在where可能会导致主表/左表的最终记录数变少的情况发生。

举个例子:
有表a和表b

表a:

idname
1a
2b
3c
4d

表b:

idname
1A
2B

1、on 后面条件用and ,不管条件是否成立 都会把左表的数据全部展示

select * from a left join b on a.id = b.id  and b.name = 'B';

此时会有4条记录

idnameid2name2
1a
2b2B
3c
4d

2、on 后面条件用where ,在left join 生成的表上在做筛选,这时会把 where中不成立的筛选掉

select * from a left join b on a.id = b.id  where b.`name` = 'B';

此时只有1条记录

idnameid2name2
2b2B

2、指定分区

结论:指定分区时优先采用写法3,即 partition 的写法。

1、left join xxx::xxx on 分区字段 = 其他表的分区字段
where 其他表的分区字段 = 2023110700
2、left join xxx::xxx on 分区字段 =2023110700
3、left join xxx::xxx partition(p_2023110700)t
4、left join (select xxx from xxx::xxx where 分区字段 =2023110700) on xxx
5、left join (select xxx from xxx::xxx partition(p_2023110700)t ) on xxx

写法1 是最慢的,因为join两边的表都没有提前过滤分区,所以执行时大概率导致全表扫描。
写法2,3 一般情况下差异不大,写法3是最规范的写法。 写法3必定是指定分区,写法2大概率会优化为指定分区,小概率全表扫描。
写法4,5是Hive的标准写法,但是一般场景下没有子查询的必要,效果上与写法2,3相同。

3、数据倾斜

1、优化大小表join,采用map join的方式优化

使用map join的必要条件:
a. 参与连接的小表的行数,以不超过2万条为宜。
b.连接类型是inner join、right outer join(小表不能是右表)、left outer join(小表不能是左表)、left semi join。

使用方法示例:

     INSERT OVERWRITE TABLE xxxSELECT /*+ MAPJOIN(aa) */   aa.pageid, u.age                                 FROM page_view pvJOIN user uON (aa.userid = u.userid);注:当大表存在数据倾斜时,如果小表符合map join的要求,使用map join会极大加速计算。
/*+ MAPJOIN(pv) */   

参考资料

2、避免大小表join
再单独清洗一张dwd,设定保留分区的个数,构造一张特定大小的总表,进行全表扫描再过滤字段。

http://www.lryc.cn/news/258027.html

相关文章:

  • 基于Java SSM框架实现高校人事管理系统项目【项目源码】计算机毕业设计
  • [C++] 模板进阶(非类型模板参数,特化,分离编译)
  • C++ this指针
  • 解决Sortable拖动el-table表头时,由于选择列造成的拖拽顺序错乱的bug
  • Plantuml之类图语法介绍(十六)
  • 深入Docker命令行:探索常用命令和实用技巧
  • qt 容器QVector,QMap,QHash的常见使用与该迭代器的简单介绍
  • 两线制无源 4-20mA 回路供电隔离变送器
  • 强化学习优质博客记录(随缘更新)
  • RabbitMQ-hello
  • 案例044:基于微信小程序的消防隐患在线举报系统
  • MES系统需要具备哪些性能方面的需求?
  • 数据在内存中的存储(整型篇)
  • 大一作业习题
  • Python大模型TensorFlow/PyTorch/Scikit-learn/Keras/OpenCV/Gensim
  • TCP 和 UDP 区别? 2、TCP/IP 协议涉及哪几层架构? 3、描述下 TCP 连接 4 次挥手的过程?为什么要 4 次挥手?
  • pyside/qt03——人机协同的编程教学—直接面向chatGPT实战开发(做中学,事上练)
  • swing快速入门(五)
  • 银河麒麟v10系统SSH远程管理及切换root用户的操作方法
  • 设计模式——建造者模式(Java示例)
  • 深入探索 Spring Boot:简化开发,加速部署的全方位利器
  • SpectralGPT: Spectral Foundation Model 论文翻译3
  • ubuntu-c++-可执行模块-动态链接库-链接库搜索-基础知识
  • HTML中使用JavaScript实现一个简单的鼠标悬停特效。
  • 深入.NET平台和C#编程总结大全
  • jOOQ的使用场景
  • Pytorch-Transformer轴承故障一维信号分类(三)
  • pycharm多线程报错的问题(未解决)
  • 【常用字符大全】含emoji表情
  • android 蓝牙开关设置