当前位置: 首页 > news >正文

Hudi metadata table(元数据表)

什么是metadata表

Metadata表即Hudi元数据表,是一种特殊的Hudi表,对用户隐藏。该表用于存放普通Hudi表的元数据信息。
Metadata表包含在普通Hudi表内部,与Hudi表是一一对应关系。

元数据表的作用

ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。
读取和写入数据时,会执行文件列表操作,以获取文件系统的当前视图。当数据集较大时,列出所有文件可能是性能瓶颈,但更重要的是,在AWS S3等云存储系统中,由于某些请求限制,大量文件列出请求有时会导致限制。元数据表将主动维护文件列表,并消除递归文件列表操作的需要。
Metadata表把当前Hudi表的分区信息,以及分区目录下的文件信息作为元数据信息,存储在一张特殊的Hudi表里面,这样当查询引擎需要list表分区文件时只需要访问这张特殊的表即可,由于元数据信息数据量本身不大,所以查询起来可以大大降低HDFS的rpc压力。
Metadata表的实现使用了Hudi MOR表,这意味着和其他任何Hudi表一样,可以被压缩(Compaction)、清理(Clean)、增量更新(incrementally updated)。 而且与其他项目中的类似实现不同,我们选择将文件列表等信息索引为HFile格式(格式可插拔),HFile提供了很好的点查性能,可以高效获取分区文件列表等信息。

相关测试

运行TPCDS基准测试时,

http://www.lryc.cn/news/281133.html

相关文章:

  • 提高iOS App开发效率的方法
  • MPU机制与实现详解
  • pom文件冲突引起的Excel无法下载
  • 【HarmonyOS4.0】第十篇-ArkUI布局容器组件(二)
  • PLECS如何下载第三方库并导入MOSFET 的xml文件,xml库路径添加方法及相关问题
  • 使用emu8086实现——子程序的设计
  • 快速排序、归并排序、希尔排序(2023-12-25)
  • Qt SDL2播放Wav音频
  • [ACM学习] 动态规划基础之一二三维dp
  • Qt点击按钮在其附近弹出一个窗口
  • Springboot注解@Configuration和@Bean注解作用,生命周期
  • 30天精通Nodejs--第十五天:Websocket
  • C++深入学习之STL:2、适配器、迭代器与算法部分
  • Tiktok/抖音旋转验证码识别
  • 【Java 设计模式】设计原则
  • Druid连接池工具公式化SQL附踩坑记录
  • Linux内核--网络协议栈(二)UDP数据包发送
  • 基于深度学习的时间序列算法总结
  • nginx中多个server块共用upstream会相互影响吗
  • 基于信号完整性的一些PCB设计建议
  • 《BackTrader量化交易图解》第8章:plot 绘制金融图
  • 什么是欧拉筛??
  • 2023年全国职业院校技能大赛软件测试赛题—单元测试卷⑩
  • 使用WAF防御网络上的隐蔽威胁之SSRF攻击
  • Redis基础系列-哨兵模式
  • 【angular教程240112】09(完) Angular中的数据请求 与 路由
  • go中拷贝文件操作
  • 未来气膜体育馆的发展趋势是什么?
  • 通信扫盲(五)
  • nbcio-boot项目的文件上传与回显处理方法