当前位置: 首页 > news >正文

hive anti join 的几种写法

t_a 表的记录如下

c1 |
:———— |
a |
b |
c |

生成 SQL 如下:

create table t_a(c1 string);
insert into t_a values("a"),("b"),("c");

t_b 表的记录如下

c1
b
m

生成 SQL 如下:

create table t_b(c1 string);
insert into t_b values("b"),("m");

我们要在t_a 中出现,而不在 t_b中出现的记录。
结果需要为:

c1
a
c
  • 写法1 — 使用not in
select * from t_a 
where c1 not in(select c1 from t_b);
  • 写法2 —使用 left join 关联上的去掉
    这种写法不容易读懂。
select a.* from t_a a left join t_b b
on a.c1=b.c1
where b.c1 is null;

注意 left join 中 b.c1 is null 不能谓词下推。

生成的执行计划如下。注意,在 join 后才过滤 _col1 is null,关联上的 _col1 肯定是 not null,所以关联上的全去掉。

Plan optimized by CBO.Vertex dependency in root stage
Map 1 <- Map 2 (BROADCAST_EDGE)Stage-0Fetch Operatorlimit:-1Stage-1Map 1 vectorizedFile Output Operator [FS_20]Select Operator [SEL_19] (rows=1 width=93)Output:["_col0"]Filter Operator [FIL_18] (rows=1 width=93)predicate:_col1 is nullMap Join Operator [MAPJOIN_17] (rows=2 width=93)Conds:SEL_16._col0=RS_15._col0(Left Outer),Output:["_col0","_col1"]<-Map 2 [BROADCAST_EDGE] vectorizedBROADCAST [RS_15]PartitionCols:_col0Select Operator [SEL_14] (rows=2 width=85)Output:["_col0"]TableScan [TS_2] (rows=2 width=85)ods@t_b,b,Tbl:COMPLETE,Col:NONE,Output:["c1"]<-Select Operator [SEL_16] (rows=2 width=85)Output:["_col0"]TableScan [TS_0] (rows=2 width=85)ods@t_a,a,Tbl:COMPLETE,Col:NONE,Output:["c1"]Time taken: 0.159 seconds, Fetched: 29 row(s)
  • 写法3 — except
    这种写法运行速度比较慢,并且如果每个表有多个字段,但是,仅按少数的字段进行判断的话就不适合。
select * from t_a except select * from t_b;
http://www.lryc.cn/news/156106.html

相关文章:

  • 使用Android原生制作毛玻璃效果图片
  • 软件设计的七大原则
  • Windows下安装配置Nginx
  • 数据结构类型
  • WPF元素绑定
  • centos编译升级cmake,痛苦的Linux小白
  • Unity资源无法下载 反复提示需同意Terms of Service和EULA 同意后无效的解决方案
  • 记录--vue 拉伸指令
  • 前端缓存方法有哪些?cookie有哪些属性?
  • 在PHP8中遍历数组-PHP8知识详解
  • 代码随想录算法训练营之JAVA|第四十三天|139. 单词拆分
  • 解决VUE3项目部署后存在缓存页面不更新的问题
  • 私募证券基金动态-23年8月报
  • Qt/C++音视频开发49-推流到各种流媒体服务程序
  • 深度学习学习笔记——解决过拟合问题的方法:权重衰减和暂退法,与正则化之间的关系
  • 【Leetcode Sheet】Weekly Practice 5
  • STM32 SPI对存储芯片发送写是能命令后一直忙等待
  • MySql学习笔记01——SQL的相关术语
  • SpringMVC入门指南
  • mysql忘记root密码如何解决?
  • ChatGPT可以生成Windows密钥
  • jupyter notebook内核启动报错:ImportError: DLL load failed while importing _device
  • 蓝桥杯备赛(Day5)——二叉树
  • 实现Android APK瘦身99.99%
  • webScoket长连接人性化解读
  • ESDA in PySal (1) 利用 A-DBSCAN 聚类点并探索边界模糊性
  • 利用GitHub实现域名跳转
  • 【Linux详解】——共享内存
  • Golang 几个不错的实用函数库
  • 【Linux】地址空间概念