当前位置: 首页 > news >正文

数据湖对比(hudi,iceberg,paimon,Delta)

Delta

数据湖

Delta

更新原理

update/delete/merge 实现均基于spark的join功能。

定位

做基于spark做流批一体的数据处理

缺点

本质为批处理。强绑定spark引擎。整体性能相较其他数据湖比较差

hudi

数据湖

hudi

更新原理

通过hudi自定义的主键索引hoodiekey + 布隆过滤器 + 文件join合并实现更新

定位

面向spark,为了解决在hadoop体系内数据更新和增量查询的问题。定位是实现数仓+数据库的功能。

缺点

本质为批处理

整体架构耦合性强,系统设计复杂,各个引擎之间的兼容性较差,参数众多。

趋势在不断的在完善面向批处理的架构细节改造,对spark友好,无法彻底适配流处理更新能力。

 iceberg

数据湖

iceberg

更新原理

写入时数据分为delete 和 insert 文件,查询时通过序列号定位文件生成先后 + join 得到最后结果

定位

官方定位是面向海量数据分析场景,底层设计抽象,通用标准设计。不依赖任何计算引擎。

缺点

本质为批处理,主打离线数据湖和扩展性

在国外的应用场景主要是离线取代 Hive,虽然扩展性强,也导致计算引擎有较多优化空间,后续发展难以迅速,需要涉及众多对接引擎。

paimon

数据湖

paimon

更新原理

通过内存 + 磁盘实现lsm数据结构

定位

CDC更新入湖,可被准实时查询,并大幅简化入湖架构。 
支持 Partial-Update 能力,基于相同的主键做到部分数据更新,也可以根据该功能实现各个流实时地打宽。 
支持流入的数据生成变更日志,给下游更好的流计算。简化流计算链路。 
Paimon 作为湖存储格式,有很强的 Append 处理,并给 Append 表上多了流读流写Z-Order排序后加速查询的能力。

优点

  1. 统一的批处理和流处理

  2. 作为数据湖存储系统,Paimon具有低成本、高可靠性、可扩展的元数据等特性

  3. 丰富的合并引擎

  4. 自动生成变更日志

  5. 丰富的表类型

  6. 支持表结构变更同步(也可以称为Schema模式演变)

  7. 提供流读增强,tag视图,数据打宽等多种能力

总结:

个人更倾向于paimon的数据湖能力,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。总结一句话就是真正面向实时更新而设计的数据湖格式。

http://www.lryc.cn/news/354015.html

相关文章:

  • 基于ssm的蛋糕商城系统java项目jsp项目javaweb
  • vue3父组件使用ref获取子组件的属性和方法
  • 加入MongoDB AI创新者计划,携手MongoDB共同开创AI新纪元
  • 3. CSS的色彩与背景
  • MiniCPM-Llama3-V-2_5-int4
  • 压缩能力登顶 小丸工具箱 V1.0 绿色便携版
  • 电子电器架构 - 车载网管功能简介
  • 路由配置总结
  • 从零起航,Python编程全攻略
  • 正运动视觉与运动一体机小课堂----三分钟系列
  • 微信小程序如何跳转微信公众号
  • vi和vim编辑器
  • 纯电动汽车硬件在环测试
  • Flutter 中的 ClipRect 小部件:全面指南
  • 【LeetCode】【209】长度最小的子数组(1488字)
  • 1738. 找出第 K 大的异或坐标值
  • Fortran: stdlib标准库
  • CSS3优秀动画代码示例
  • 嵌入式0基础开始学习 ⅠC语言(4)循环结构
  • 【JAVASE】抽象类
  • 嵌入式硬件中PCB走线与过孔的电流承载能力分析
  • 动态规划之背包问题中如何确定遍历顺序的问题-组合or排列?
  • 开源大模型与闭源大模型
  • python+selenium - UI自动框架之封装查找元素
  • java 拦截器-用户无操作超时退出利用Redis
  • 民国漫画杂志《时代漫画》第16期.PDF
  • 线程池以及日志类的实现
  • 基于长短期记忆网络 LSTM 的送餐时间预测
  • K-means聚类算法详细介绍
  • SAP FS00如何导出会计总账科目表