当前位置: 首页 > news >正文

【Hudi】Upsert原理

17张图带你彻底理解Hudi Upsert原理

在这里插入图片描述
1.开始提交:判断上次任务是否失败,如果失败会触发回滚操作。然后会根据当前时间生成一个事务开始的请求标识元数据。2.构造HoodieRecord Rdd对象:Hudi 会根据元数据信息构造HoodieRecord Rdd 对象,方便后续数据去重和数据合并。3.数据去重:一批增量数据中可能会有重复的数据,Hudi会根据主键对数据进行去重避免重复数据写入Hudi 表。4.数据fileId位置信息获取:在修改记录中可以根据索引获取当前记录所属文件的fileid,在数据合并时需要知道数据update操作向那个fileId文件写入新的快照文件。5.数据合并:Hudi 有两种模式cow和mor。在cow模式中会重写索引命中的fileId快照文件;在mor 模式中根据fileId 追加到分区中的log 文件。6.完成提交:在元数据中生成xxxx.commit文件,只有生成commit 元数据文件,查询引擎才能根据元数据查询到刚刚upsert 后的数据。7.compaction压缩:主要是mor 模式中才会有,他会将mor模式中的xxx.log 数据合并到xxx.parquet 快照文件中去。8.hive元数据同步:hive 的元素数据同步这个步骤需要配置非必需操作,主要是对于hive 和presto 等查询引擎,需要依赖hive 元数据才能进行查询,所以hive元数据同步就是构造外表提供查询。

2.5.1 Copy on Write模式
COW模式数据合并实现逻辑调用BaseSparkCommitActionExecutor#excute方法,实现步骤如下:

在这里插入图片描述

http://www.lryc.cn/news/305902.html

相关文章:

  • 信息系统服务:演绎数字时代的征程
  • rust连接postgresql数据库
  • [面试] 什么是死锁? 如何解决死锁?
  • 网络原理 HTTP _ HTTPS
  • 软件实际应用实例,茶楼收银软件管理系统操作流程,茶室计时计费会员管理系统软件试用版教程
  • 网络安全“三保一评”深度解析
  • IDA使用-2023CICSN华中赛区pwn题逆向为例
  • 安装虚拟机出现的一些问题
  • Git+py+ipynb Usage
  • eBPF实践篇之环境搭建
  • 机器学习科普及学习路线
  • 如何在本地电脑部署HadSky论坛并发布至公网可远程访问【内网穿透】
  • Spring Boot 笔记 025 主界面
  • (done) Positive Semidefinite Matrices 什么是半正定矩阵?如何证明一个矩阵是半正定矩阵? 可以使用特征值
  • 七、矩阵的初等变换
  • CSS background-size
  • 【机器学习】特征工程之特征选择
  • Java中PDF文件传输有哪些方法?
  • 前后端分离Vue+ElementUI+nodejs蛋糕甜品商城购物网站95m4l
  • Pytorch 复习总结 3
  • 2024年危险化学品经营单位主要负责人证考试题库及危险化学品经营单位主要负责人试题解析
  • go使用trpc案例
  • nodejs+vue+ElementUi废品废弃资源回收系统
  • 【Java程序设计】【C00277】基于Springboot的招生管理系统(有论文)
  • 汇编语言与接口技术实践——秒表
  • 【数据结构与算法】(19)高级数据结构与算法设计之 图 拓扑排序 最短路径 最小生成树 不相交集合(并查集合)代码示例
  • OSCP靶场--Nickel
  • 新建工程——库函数版
  • java 数据结构栈和队列
  • #LLM入门|Prompt#1.8_聊天机器人_Chatbot