当前位置: 首页 > news >正文

【Hive-小文件合并】Hive外部分区表利用Insert overwrite的暴力方式进行小文件合并

这里我们直接用实例来讲解,Hive外部分区表有单分区多分区的不同情况,这里我们针对不同情况进行不同的方式处理。

  • 利用overwrite合并单独日期的小文件

1、单分区

# 开启此表达式:`(sample_date)?+.+` 
set hive.support.quoted.identifiers=none;# 此sql是将20230713分区的小文件进行合并
# `(sample_date)?+.+`:表示select 出除了sample_date分区字段以外的所有字段(字段较多的时候用这种方式很便捷)
insert overwrite table `test`.`table` 
partition(sample_date='20230713') 
select `(sample_date)?+.+` 
from `test`.`table` where sample_date='20230713';

2、多分区

# 开启此表达式:`(sample_date|msgtype)?+.+`
set hive.support.quoted.identifiers=none;# 此sql是将20230713分区的小文件进行合并(但是注意还有子分区:msgtype)
# `(sample_date|msgtype)?+.+`:表示select 出除了sample_date和msgtype这两个分区字段以外的所有字段(字段较多的时候用这种方式很便捷)
insert overwrite table `test`.`table` 
partition(sample_date='20230713') 
select `(sample_date|msgtype)?+.+` 
from `test`.`table` where sample_date='20230713';
  • 利用overwrite合并一定分区范围内的小文件

1、单分区

注意: 合并一定分区范围内的小文件,select 后必须是 *,否则会报错。

insert overwrite table `test`.`table` 
partition(sample_date) 
select *
from `test`.`table` 
where sample_date between '20230712' and '20230713';

2、多分区

注意: 合并一定分区范围内的小文件不管单分区还是多分区,select 后必须都是 *,否则会报错。

insert overwrite table `test`.`table` 
partition(sample_date, partition_name) 
select * 
from `test`.`table` 
where sample_date between '20230802' and '20230803';
http://www.lryc.cn/news/156968.html

相关文章:

  • 位运算 |(按位或) (按位与) ^(按位异或)
  • Qt应用开发(基础篇)——复选按钮 QCheckBox 单选按钮 QRadioButton
  • AERMOD模型大气环境影响评价
  • 递归组装树结构的数据
  • 企业架构LNMP学习笔记7
  • 开店星小程序上架教程和后台Request failed with status code 500[undefined]问题处理
  • 第一百三十六回 WillPopScope组件
  • 【论文爬虫】自动将论文详细信息直送notion并自动下载(含源码)
  • Android知识点整理
  • JSON与电子表格
  • Oracle创建用户、授权视图权限
  • MT4移动端应用指南:随时随地进行交易
  • 【数据挖掘】学习笔记
  • MyBatis-Plus排除不必要的字段
  • webpack打包
  • 【Java SE】抽象类与接口
  • HTML <time> 标签
  • C++的向上转型
  • Android开发-Mac Android开发环境搭建(Android Studio Mac环境详细安装教程,适合新手)...
  • 公园气象站:用科技力量,感知气象变化
  • mysql-norebuild的ddl测试
  • 上海控安SmartRocket系列产品推介(六):SmartRocket PeneX汽车网络安全测试系统
  • [TQLCTF 2022]simple_bypass
  • 【每日一题】657. 机器人能否返回原点
  • Java反射:探索对象创建与类信息获取
  • 【100天精通Python】Day55:Python 数据分析_Pandas数据选取和常用操作
  • f12工具
  • Spring MVC实现RESTful
  • ClickHouse配置Hdfs存储数据
  • zabbix监控网络设备和zabbix proxy