当前位置: 首页 > news >正文

Hudi介绍

  在数据不断写入 Hudi 期间,Hudi 会不断生成 commit、deltacommit、clean 等 Instant 记录每一次操作类型、状态及详细的元数据,这些 Instant 最终都会存到 .hoodie 元数据目录下,为了避免元数据文件数量过多,ActiveTimeline 越来越长,需要对比较久远的操作进行归档(archive),将这部分操作移到 .hoodie/archive 目录下,单独形成一个 ArchivedTimeline。

Apache Hudi中,commit、deltacommit和clean是与数据管理和维护相关的文件。

  1. Commit(提交)文件:在Hudi中,commit文件是用于记录数据写入操作的元数据文件。每次写入数据时,Hudi会生成一个commit文件,其中包含了写入数据的时间戳、数据文件的路径等信息。Commit文件的存在可以确保数据的一致性和可恢复性。

  2. DeltaCommit(增量提交)文件:DeltaCommit文件是用于记录增量数据写入操作的元数据文件。增量数据是指在已有数据的基础上进行的更新、插入或删除操作。每次进行增量操作时,Hudi会生成一个DeltaCommit文件,其中包含了增量操作的元数据信息。DeltaCommit文件的存在可以追踪到增量操作的历史,以便在需要时进行回滚或恢复。

  3. Clean(清理)文件:Clean文件是用于记录数据清理操作的元数据文件。当Hudi需要清理或删除过期或无效的数据时,会生成一个Clean文件,其中包含了要清理的数据文件的路径等信息。Clean文件的存在可以确保数据的清理操作被记录和跟踪。

这些文件的存在和管理是为了确保数据的一致性、可恢复性和清理操作的追踪。

Clean(清理)文件一般用于记录需要清理的过期或无效的数据文件的路径等信息。具体来说,Clean文件通常用于清理已经过期的旧版本数据文件,或者清理已经标记为删除的数据文件。通过清理这些文件,可以释放存储空间并保持数据的整洁性。清理的具体规则和策略可以根据实际需求进行配置和管理。

17张图带你彻底理解Hudi Upsert原理 - 知乎 (zhihu.com)

http://www.lryc.cn/news/261201.html

相关文章:

  • MYSQl基础操作命令合集与详解
  • 【Flink名称解释一】什么是cataLog
  • ES如何提高准确率之【term-centric】
  • DDD落地:爱奇艺打赏服务,如何DDD架构?
  • 基于JavaWeb+SSM+Vue居住证申报系统小程序的设计和实现
  • 环境安全之配置管理及配置安全设置指导
  • 【C#】Microsoft C# 视频学习总结
  • 【已解决-实操篇】SaTokenException: 非Web上下文无法获取Request问题解决-实操篇
  • 论文润色机构哪个好 快码论文
  • Idea执行bat使用maven打包springboot项目成docker镜像并push到Harbor
  • NCNN 源码学习【三】:数据处理
  • RabbitMq基本使用
  • windows wsl2 ubuntu上部署 redroid云手机
  • 创维电视机 | 用当贝播放器解决创维电视机不能播放MKV视频的问题
  • 【STM32】DMA直接存储器存取
  • Vue3-09-条件渲染-v-show 的基本使用
  • ArrayList与LinkLIst
  • 位运算(、|、^、~、>>、<<)
  • Centos7部署SVN
  • Vue中this.$nextTick的执行时机
  • Unity中的ShaderToy
  • 2 使用postman进行接口测试
  • 【数据库设计和SQL基础语法】--查询数据--聚合函数
  • Module ‘app‘: platform ‘android-33‘ not found.
  • MySQL按序批量操作大量数据
  • strict-origin-when-cross-origin
  • 【置顶】 本博博文汇总
  • react.js源码二
  • 如何学习英语
  • robot测试自动化