当前位置: 首页 > news >正文

2024-02-04(hive)

1.Hive中的分区表

可以选择字段作为表分区。

分区其实就是HDFS上的不同文件夹。

分区表可以极大的提高特定场景下Hive的操作性能。

2.分区语法

create table tablename(...) partitioned by (分区列 列类型, ...)
row format delimited fields terminated by '';

3.Hive中的分桶表

 选择一个字段作为分桶字段

分桶表本质上是数据分开在不同的文件中

分区和分桶可以同时使用

4.为什么要用insert select的方式插入分桶表数据

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。

5.分桶表能带来什么性能提升?

在基于分桶列做操作的前提下:

单值过滤

JOIN

GROUP BY

http://www.lryc.cn/news/296348.html

相关文章:

  • P9420 [蓝桥杯 2023 国 B] 子 2023 / 双子数--2024冲刺蓝桥杯省一
  • The Back-And-Forth Method (BFM) for Wasserstein Gradient Flows windows安装
  • 【GAMES101】Lecture 19 透镜
  • 防范恶意勒索攻击!亚信安全发布《勒索家族和勒索事件监控报告》
  • AR人脸106240点位检测解决方案
  • 数字图像处理实验记录八(图像压缩实验)
  • navigator.mediaDevices.getUserMedia获取本地音频/麦克权限并提示用户
  • CTF-show WEB入门--web19
  • 04 使用gRPC实现客户端和服务端通信
  • 设计模式-行为型模式(下)
  • 华为交换机常用命令
  • 【Linux】信号-上
  • uniapp 开发App 权限授权 js-sdk
  • 【01】判断素数/质数(C语言)
  • 特征工程:特征提取和降维-上
  • 前端JavaScript篇之强类型语言和弱类型语言的区别和对比
  • [红日靶机渗透] ATKCK红队评估实战靶场三
  • 网课:N皇后问题——牛客(题解和疑问)
  • [大厂实践] Netflix容器平台内核panic可观察性实践
  • 2024/2/8
  • Verilog刷题笔记23
  • C#验证字符串的长度,用正则表达式 vs 字符数组长度或字符串的长度
  • opencv C++ dnn模块调用yolov5以及Intel RealSense D435深度相机联合使用进行目标检测
  • 2024牛客寒假算法基础集训营1(视频讲解全部题目)
  • 第三百一十三回
  • 倒计时61天
  • npm后Truffle找不到命令(ubantu20系统)
  • 嵌入式学习第三篇——51单片机
  • RabbitMQ详解
  • CGAL::2D Arrangements-4