当前位置: 首页 > news >正文

Hudi extraMetadata 研究总结

前言

研究总结 Hudi extraMetadata ,记录研究过程。主要目的是通过 extraMetadata 保存 source 表的 commitTime (checkpoint), 来实现增量读Hudi表写Hudi表时,保存增量读状态的事务性,实现类似于流任务中的 exactly-once

背景需求

有个需求:增量读Hudi表关联其他Hudi表然后做一些复杂的业务处理逻辑,然后将结果表保存到目标Hudi表中

然后就有问题:如何保证保存目标Hudi表和保存 endCommiTime 是事务的。具体如下
1、Spark支持增量读Hudi表,需要传入起(始) commitTime。
2、上一批数据处理完成后应该保存上次增量读的的 endCommiTime,作为下一批增量读的的 beginCommitTime
3、可以选择将上一批的 endCommiTime 保存到 HDFS 或者数据库表中,但是不能保证事务。(并且还需要借助外部表或者存储目录,如果能通过Hudi本身解决,就比较完美了)
4、也就是可能存在保存目标Hudi表成功,但是保存 endCommiTime 失败的情况

这时就想到了 DeltaStreamer 中是通过设置 checkpoint 来实现的,具体是通过将 commitTime 的值保存到目标表 .commit 元数据文件中(extraMetadata->deltastreamer.checkpoi

http://www.lryc.cn/news/371568.html

相关文章:

  • Vue31-自定义指令:总结
  • Windows环境如何使用Flutter Version Manager (fvm)
  • 优化Elasticsearch搜索性能:查询调优与索引设计
  • STM32-17-DAC
  • 一杯咖啡的艺术 | 如何利用数字孪生技术做出完美的意式浓缩咖啡?
  • 使用QT制作QQ登录界面
  • 代码随想录训练营第七天 344反转字符串 541反转字符串II 替换数字
  • 【Python】数据处理:SQLite操作
  • NXP RT1060学习总结 - fsl_flexcan 基础CAN函数说明 -3
  • 2024年第三届数据统计与分析竞赛(B题)数学建模完整思路+完整代码全解全析
  • 高通Android 12 右边导航栏改成底部显示
  • 2.6数据报与虚电路
  • 小主机折腾记26
  • ArrayList浅析
  • Spring Boot整合hibernate-validator实现数据校验
  • Ubuntu系统中网易云音乐编译安装
  • MPLS标签号
  • OpenHarmony napi 编译 .so 并打包成 .har
  • python 循环导入(circular imports)解决方法
  • 01、Linux网络设置
  • ssm160基于Java技术的会员制度管理的商品营销系统的设计与实现+vue
  • 边缘计算网关在智慧厕所远程监测与管理的应用
  • 嵌入式linux中设备树使用of函数操作基本方法
  • 10.GLM
  • 【深度学习】Transformer分类器,CICIDS2017,入侵检测,随机森林、RFE、全连接神经网络
  • pdf压缩到指定大小的简单方法
  • 关于FPGA对 DDR4 (MT40A256M16)的读写控制 I
  • JavaWeb_SpringBootWeb案例
  • Linux中FTP安装
  • 【Spring EL<二>✈️✈️ 】SL 表达式结合 AOP 注解实现鉴权