当前位置: 首页 > news >正文

Hive底层数据存储格式

前言

在大数据领域,Hive是一种常用的数据仓库工具,用于管理和处理大规模数据集。Hive底层支持多种数据存储格式,这些格式对于数据存储、查询性能和压缩效率等方面有不同的优缺点。本文将介绍Hive底层的三种主要数据存储格式:文本文件格式、Parquet格式和ORC格式。

一、三种存储格式

  1. 文本文件格式:文本文件格式是最基本的数据存储格式之一,它以纯文本方式存储数据,每一行表示一条记录。这种格式简单易用,适用于各种类型的数据,但由于没有压缩和优化,它的存储效率相对较低。同时,在查询性能方面,由于数据没有被结构化,可能会出现较慢的查询速度。

  2. Parquet格式:Parquet是一种列式存储格式,它将数据按列进行存储,相同类型的数据被存储在一起,利于数据压缩和编码。这种格式在存储大规模数据时非常高效,可以大幅减少存储空间,并提高查询性能。由于Hive支持谓词下推优化,Parquet格式可以更好地利用这一特性,使得查询更快速。在一个 Parquet 类型的 Hive 表文件中,数据被分成多个行组,每个列块又被拆分成若干的页(Page),如下图所示:

在这里插入图片描述
Parquet 在存储数据时,元数据也同 Parquet 的文件结构一样,被分成多层文件级别的元数据、列块级别的元数据及页级别的元数据。

http://www.lryc.cn/news/127973.html

相关文章:

  • 双向-->带头-->循环链表
  • Opencv4基于C++基础入门笔记:OpenCV环境配置搭建
  • JS基础之实现map方法
  • FPGA应用学习笔记-----复位电路(二)和小结
  • 信捷 XD PLC 16位整数转换为双精度浮点数
  • (二)结构型模式:1、适配器模式(Adapter Pattern)(C++实现示例)
  • 【编程二三事】ES究竟是个啥?
  • 爬虫逆向实战(三)--天某云登录
  • 不要过于迷恋软件架构,要重视如何设计根据简单和清晰的设计
  • Grafana监控 Redis Cluster
  • k8s 认证和权限控制
  • 性能优化的重要性
  • Leetcode No.53 Maximum Subarray
  • 手机出现 不读卡 / 无信号时应该怎么办?
  • Linux 内核模块运行机制(10/11)
  • MySQL数据库-字符串函数详解
  • 半导体退火那些事(3)
  • 1281. 整数的各位积和之差
  • 如何使用Vue和C++实现OJ《从零开始打造 Online Judge》
  • 在Spring Boot和Vue中实现请求过滤器以验证请求头中的Token
  • ThreeJS——在3D地球上标记中国地图板块
  • 第2章 性能测量
  • 未来,运营的重要性大于产品?
  • paddle ocr框架识别数字问题和解决方案
  • 构建高性能的MongoDB数据迁移工具:Java的开发实践
  • 2023年国赛数学建模思路 - 案例:最短时间生产计划安排
  • 1572. 矩阵对角线元素的和
  • 在vue中使用swiper轮播图(搭配watch和$nextTick())
  • Java书签 #使用MyBatis接入多数据源
  • 神经网络基础-神经网络补充概念-23-神经网络的梯度下降法