当前位置: 首页 > news >正文

Hive分区值的插入

对于Hive分区表,在我们插入数据的时候需要指定对应的分区值,而这里就会涉及很多种情况。比如静态分区插入、动态分区插入、提供的分区值和分区字段类型不一致,或者提供的分区值是NULL的情况,下面我们依次来展现下不同情况下的表现。

1. 静态分区和动态分区

假如建表如下:

create table tbl_name(xxx) partitioned by(pt xxx, online xxx);

Hive默认是静态分区,即明确指定分区值,写法如下:

insert overwrite table tbl_name partition(pt=20121023, if_online=1)  
select field1, field2, ..., fieldn  
from tbl where xxx;  

有时,我们就需要使用动态分区,因为需要根据某些字段来选择插入对应的分区里,不能指定分区值。首先要开启动态分区设置:

set hive.exec.dynamic.partition=true;  
set hive.exec.dynamic.partition.mode=nonstrict;  

然后写法如下(注意select最后的字段值就是对应这分区值):

insert overwrite table tbl_name partition(pt, if_online)  
select field1, field2, ..., pt, if_online  
from tbl where xxx;  

 动态分区与静态分区还有一个细微的差别是,静态分区一定会创建分区,不管SELECT语句的结果有没有数据。而动态分区,只有在SELECT结果的记录数>0的时候,才会创建分区。因此在不同的业务场景下,可能会选择不同的方案。静态和动态并不是分区的属性,而只是指定值与不指定值的区别。另外可以混合使用动态和静态分区,不过要注意,静态分区列一定要在动态分区列前面。

2. 提供的分区值和分区字段类型不一致

这会导致数据会被插入到对应的分区值里,show partitions xxx也能显示出对应的分区值,但是在s查询时,有可能分区值是NULL,是不是NULL要看分区字段类型是否能兼容提供的分区值。

比如:

情况1:分区字段类型是int,提供的分区值是string(含有非数字)

create table t2(a int, b string) partitioned by(dt int);
insert into t2 partition(dt='2222') values(1, 'xxxx');
insert into t2 partition(dt='asd') values(2, 'xxxx');

 

 

情况2:分区字段类型是string,提供的分区值是int

create table t3(a int, b string) partitioned by(dt string);
insert into t3 partition(dt=111) values(2, 'xxxx');
insert into t3 partition(dt='asd') values(1, 'xxxx');

 

 

3. 提供的分区值是NULL

只有动态分区才能提供分区值是NULL的情况,即

Insert into table partition(分区字段) select f1,f2...分区值 from xxx

然后分区值又没有值,即是null的情况下,这会导致Hive写入到默认分区 __HIVE_DEFAULT_PARTITION__里去。

http://www.lryc.cn/news/498462.html

相关文章:

  • 【多个图片合并成PDF】
  • Flutter动画(三)内建显式动画Widget
  • 本地运行打包好的dist
  • 什么是Layer Normalization?
  • 17. Threejs案例-Three.js创建多个立方体
  • RK3568 Android14 打开蓝牙时默认同意
  • 多模态视频大模型Aria在Docker部署
  • Ant-Design-Vue 全屏下拉日期框无法显示,能显示后小屏又位置错乱
  • AMR移动机器人赋能制造业仓储自动化升级
  • 【PHP项目实战】活动报名系统
  • 【HarmonyOS】Component组件引入报错 does not meet UI component syntax.
  • vue3项目最新eslint9+prettier+husky+stylelint+vscode配置
  • 备赛蓝桥杯--算法题目(3)
  • CSS中要注意的样式效果
  • 【NIPS2024】Unique3D:从单张图像高效生成高质量的3D网格
  • 使用Kubernetes部署Spring Boot项目
  • 基于VTX356语音识别合成芯片的智能语音交互闹钟方案
  • git将一个项目的文件放到另一个项目的文件夹下
  • Cannon.js 从入门到精通
  • 深入理解 TCP 标志位(TCP Flags)
  • K8S,StatefulSet
  • JavaScript动态网络爬取:深入解析与实践指南
  • MySql:Centos7安装MySql
  • Vector软件CANdb++的信号起始位Bug
  • elasticsearch-7.14.0集群部署+kibana
  • 如何给GitHub的开源项目贡献PR
  • 神经网络-CNN
  • 4.Vue-------this.$set()的使用和详细过程-------vue知识积累
  • 服务器上的常见Linux命令教程
  • 汽车总线协议分析-FlexRay总线