当前位置: 首页 > news >正文

2023.11.12 hive中分区表,分桶表与区别概念

1.分区表

分区表的本质就是在分目录

当Hive表对应的数据量大、文件多时,为了避免查询时全表扫描数据。比如把一整年的数据根据月份划分12个月(12个分区),后续就可以查询指定月份分区的数据,尽可能避免了全表扫描查询。

2.分桶表

 分桶表的本质是在分文件

分桶表特点: 需要产生分桶文件, 查询的时候特定操作上提升效率(过滤,join,分组 以及 抽样)

  1. 分桶表也叫做桶表,叫法源自建表语法中bucket单词,是一种用于优化查询而设计的表类型。
  2. 分桶表对应的数据文件在底层会被分解为若干个部分,通俗来说就是被拆分成若干个独立的小文件。
  3. 在分桶时,要指定根据哪个字段将数据分为几桶(几个部分)。
  4. 分桶原理: 
    如果是数值类型分桶字段: 直接使用数值对桶数量取模   
    如果是字符串类型分桶字段: 底层会使用hash算法计算出一个数字然后再对桶数量取模,所以在对数据抽样上面相对的均匀

分桶表的使用好处有以下几点:

1、 基于分桶字段查询时,减少全表扫描

2、 JOIN时可以提高MR程序效率,减少笛卡尔积数量

  对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了分桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量。

3、 分桶表数据进行抽样

  当数据量特别大时,对全体数据进行处理存在困难时,抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

3.分区表和分桶表的区别

分区表:
    创建表的时候使用关键字: partition by (分区字段名 分区字段类型)
    分区字段名注意事项: 是一个新的字段,需要指定类型,且不能和其他字段重名
    分区表好处: 使用分区字段作为条件的时候,底层直接找到对应的分区目录,能够避免全表扫描,提升查询效率
    分区表最直接的效果: 在hfds表目录下,分成多个分区目录(year=xxxx,month=xx,day=xx)
    不建议直接上传文件在hdfs表根路径下: 分区表直接不能识别对应文件中数据,因为分区表会找分区目录下的数据文件
    使用load方式加载hdfs中文件: 本质是移动文件到对应分区目录下

分桶表:
    创建表的时候使用关键字: clustered by (分桶字段名) into 桶数量 buckets
    分桶字段名注意事项: 是指定一个已存在的字段,不需要指定类型
    分桶表好处: 使用分桶字段做抽样等特定操作的时候,也能提升性能效率
    分桶表最直接的效果: 在hdfs表目录或者分区目录下,分成多个分桶文件(000000_0,000001_0,000002_0...)
    不建议直接上传文件在hdfs表根路径下: 分桶表可以识别对应文件中数据,但是并没有分桶效果,也是不建议的
    使用load方式加载hdfs中文件: 本质是复制数据到各个分桶文件中

分区:用load方式从hdfs文件加载到表中,会移动原文件到表的目录下

分桶:用load方式从hdfs文件加载到表中,不是移动原文件,先生成分桶文件,在扫描源文件数据,把符合要求的数据放到对应的桶文件中 

  • 分区表的字段不能是表中已有字段,分桶表字段必须是表中已有字段。
  • 分区表提高查询效率,分桶表减少join(联表)查询时笛卡尔积的数量,提高联表效率

http://www.lryc.cn/news/230714.html

相关文章:

  • Pass-中间件管理
  • 什么是GIL锁,有什么作用?python的垃圾回收机制是什么样的?解释为什么计算密集型用多进程,io密集型用多线程。
  • Postman如何发送Https请求
  • Redis集群启动
  • 使用proxy把后端返回的图片域名替换成目标域名
  • css实现div倾斜效果
  • 算法学习打卡day45|动态规划:股票问题总结
  • 内网环境下让容器上网,并制作一个httpd容器
  • 多个Obj模型合并
  • Qt调用python写好的函数,利用Python丰富的图像处理库来完成各种任务
  • 第六章:接口
  • 【Java 进阶篇】JQuery DOM操作:CRUD操作的前端魔法
  • 如何实现Redisson分布式锁
  • Kafka(三)生产者发送消息
  • 2020年五一杯数学建模C题饲料混合加工问题解题全过程文档及程序
  • 公益SRC实战|SQL注入漏洞攻略
  • Word软件手动安装Zotero插件
  • idea 插件推荐第二期
  • plsql查询中文出现乱码
  • 【Docker】五分钟完成Docker部署Java应用,你也可以的!!!
  • 如何准备2024年的系统设计面试?
  • 【开源】基于JAVA的电子元器件管理系统
  • 足底筋膜炎怎么治疗治愈
  • Keil工程忽略文件.gitignore、自动删除脚本:keilkilll.bat、自动生成目录文件列表脚本
  • 软考高级职称哪个好考?明确给你答案
  • 智能客服外包服务适用于哪些行业?
  • 数字化企业各业务模块模型
  • WPF动画小知识
  • 数据结构 顺序表和链表
  • LMI相机配置步骤,使用Gocator2550相机