当前位置: 首页 > news >正文

Hive分区和分桶

分区:
根据某一列进行进行划分存储,常用的有时间分区;
查询数据时只需要扫描特定的分区数据,不需要全盘扫描,节省时间,
方便数据归档和清理

创建分区表
create table table_name(
col1 int,
col2 string
)
partition by (dt string,country string);

插入分区
insert into table_name partition (dt='2024-06-19',country='china')
values(1,'data1'),(2,data2);

修改分区
alter table table_name partition ()
删除分区
alter table table_name drop partition(dt='2024-06-18');

分桶:
将表数据按照哈希函数的结果进行划分存储,将数据均匀分不到桶中,提高了查询的并行度和性能。
支持随机抽样

创建分桶

create table bucket_table_name(
col1 int,
col2 string
)
clustered by (col1) into 4 buckets
sorted by (col2);

插入数据
insert overwrite table bucket_table_name
select cols,col2
from table_name;

查询分桶数据
select *
from
bucket_table_name
where col1=1;

http://www.lryc.cn/news/384218.html

相关文章:

  • GPT-5的到来~
  • 责任链模式(设计模式)
  • 计算机图形学入门20:加速光线追踪
  • sys.stdin对象——实现标准输入
  • 嵌入式项目分享| 终极智能手表,全过程+全开源分享
  • 【Linux详解】进程的状态 | 运行 阻塞 挂起 | 僵尸和孤儿状态
  • MySQL添加外键约束经典案例
  • vue3监听器watch以及watchEffect的使用
  • modelsim做后仿真的一点思路
  • 如何获取特定 HIVE 库的元数据信息如其所有分区表和所有分区
  • 如何在 qmake(QtCreator)中指定 Mac 平台
  • day39动态规划part02| 62.不同路径 63. 不同路径 II 343. 整数拆分 (可跳过)96..不同的二叉搜索树 (可跳过)
  • 声场合成新方法:基于声波传播的框架
  • 鸿蒙文件操作事前准备
  • AI智能时代:ChatGPT如何在金融市场发挥策略分析与预测能力?
  • C#面:C#属性能在接口中声明吗?
  • 区块链的历史和发展:从比特币到以太坊
  • input()函数——输入
  • CST 时间格式减去八小时
  • 植物大战僵尸杂交版技巧大全(附下载攻略)
  • HTTPS 代理的优点和缺点是什么?
  • Mac安装多版本node
  • HTML静态网页成品作业(HTML+CSS)——动漫猪猪侠网页(4个页面)
  • 【机器学习300问】125、什么是双向循环神经网络(BRNN)?什么是深度循环神经网络(DRNN)?
  • 办公软件汇总
  • Docker 搭建 MinIO 对象存储
  • 主干网络篇 | YOLOv5/v7 更换骨干网络之 PP-LCNet | 轻量级CPU卷积神经网络
  • CubeFS - 新一代云原生存储系统
  • 推动多模态智能模型发展:大型视觉语言模型综合多模态评测基准
  • 深度学习31-33