当前位置: 首页 > news >正文

Apache Paimon实时数据糊介绍

Apache Paimon 是一种湖格式,可以使用 Flink 和 Spark 构建实时 数据糊 架构,用于流式和批处理操作。Paimon 创新地将湖格式和 LSM(日志结构合并树)结构相结合,将实时流式更新引入湖架构中。

Paimon 提供以下核心功能:

  • 实时更新:
    • 主键表支持大规模更新的写入,具有非常高的更新性能,通常通过 Flink 流处理实现。
    • 支持定义合并引擎,根据您的喜好更新记录。去重以保留最后一行,或部分更新,或聚合记录,或第一行,由您决定。
    • 支持定义变更日志生成器,在合并引擎的更新中生成正确完整的变更日志,简化您的流式分析。
  • 大规模附加数据处理:
    • 附加表(无主键)提供大规模批处理和流处理能力。自动小文件合并。
    • 支持使用 z-order 排序进行数据压缩,优化文件布局,基于数据跳过使用 minmax 等索引提供快速查询。
  • 数据湖能力:
    • 可扩展的元数据:支持存储 PB 级大规模数据集和存储大量分区。
    • 支持 ACID 事务、时间旅行和模式演变。

在这里插入图片描述
如上所示的架构:

读/写:Paimon 支持多样化的数据读写和执行 OLAP 查询的方式。

对于读取,它支持从以下方式消费数据:- 历史快照(批处理模式ÿ
http://www.lryc.cn/news/332213.html

相关文章:

  • 计算机网络:数据链路层 - 可靠传输协议
  • 苍穹外卖07(缓存菜品,SpringCache,缓存套餐,添加购物车菜品和套餐多下单,查看购物车,清除购物车,删除购物车中一个商品)
  • C语言第三十八弹---编译和链接
  • 无人售货奶柜:开启便捷生活的新篇章
  • STM32为什么不能跑Linux?
  • Dubbo 3.x源码(18)—Dubbo服务引用源码(1)
  • 设计模式:工厂模式和抽象工厂模式的区别
  • python面试题(36~50)
  • Vue 样式技巧总结与整理[中级局]
  • cesium加载.tif格式文件
  • 分布式全闪占比剧增 152%,2023 年企业存储市场报告发布
  • LeetCode 707. 设计链表(单链表、(非循环)双链表 模板)
  • 深入了解Flutter中Overlay的介绍以及使用
  • 文本直接生成2分钟视频,即将开源模型StreamingT2V
  • 时序预测 | Matlab实现SOM-BP自组织映射结合BP神经网络时间序列预测
  • FPGA高端图像处理开发板-->鲲叔4EV:12G-SDI、4K HDMI2.0、MIPI等接口谁敢与我争锋?
  • linux练习-交互式传参
  • 【数据结构(一)】初识数据结构
  • 前端三剑客 —— CSS (第六节)
  • MyBatis 解决上篇的参数绑定问题以及XML方式交互
  • Rust语言之属性宏(Attribute Macro)derive
  • [技术闲聊]我对电路设计的理解(六)-原理图封装
  • 算法(滑动窗口四)
  • 学习记录:bazel和cmake运行终端指令
  • 蓝桥杯刷题--python-37-分解质因数
  • Delphi编写的图片查看器
  • Swing中的FlowLayout/WrapLayout在打横排列时候如何做到置顶对齐
  • C# MES通信从入门到精通(8)——C#调用Webservice服务进行数据交互
  • day04-MQ
  • 神经网络汇聚层