当前位置: 首页 > news >正文

粗读Apache Paimon 的基本概念及其组成结构

文章目录

  • 一、Paimon的基本概念
    • (一)快照
    • (二)分区
    • (三)分桶
    • (四)一致性保证
  • 二、Paimon的组成结构
    • (一)文件布局
    • (二)存储结构
    • (三)读写方式
    • (四)生态系统

一、Paimon的基本概念

(一)快照

想象一下,你正在翻看一本相册,每一张照片都记录了一个特定的时刻。在Paimon中,快照就是数据表的“照片”,它记录了表在某一特定时间的状态。通过快照,你可以查看表的最新数据,或者像穿越时空一样,回到过去,查看表的旧版本。

(二)分区

你是否曾在整理文件时,将它们分门别类地放入不同的文件夹?Paimon中的分区概念与此类似。它允许我们根据某些特定的列值(比如日期、城市或部门)将数据表分割成多个部分,这样我们就可以更高效地管理和查询数据。

(三)分桶

想象一下,你有一个大箱子,里面装满了各种颜色的球。为了更容易找到特定颜色的球,你决定将它们分成几个小盒子。在Paimon中,分桶就是将数据表或分区进一步细分为更小的部分,以便更有效地组织和查询数据。每个桶的大小建议控制在1GB左右,以避免过多的小文件影响读取性能。

(四)一致性保证

Paimon中,写入数据的过程就像是在进行一场接力赛。为了保证交接棒不掉落,Paimon使用了一种叫做两阶段提交的协议。这样,即使多个写入操作同时进行,只要它们不影响到同一个桶,它们的操作就能像接力赛一样有序进行;如果影响到同一个桶,则会保证至少有一个快照级别的隔离。


二、Paimon的组成结构

(一)文件布局

就像一本书有目录一样,Paimon中的数据也是有序组织的。所有的文件都存放在一个基本目录下,并且按照一定的层次结构排列。

  • 快照文件(SnapshotFiles:记录了表在特定时间点的状态。
  • 清单文件(ManifestFiles:存储了所有清单列表和清单文件,这些文件包含了LSM数据文件和更改日志文件的信息。
  • 数据文件(DataFiles:根据分区和桶进行分组,每个桶都包含一个LSM树及其变更日志文件。Paimon支持orcparquetavro这三种数据文件格式。
  • LSM树(LSMTreesPaimon使用LSM树来组织文件,这种结构将文件分成多个有序的段。

(二)存储结构

Paimon的底层,数据以列式格式存储在文件系统或对象存储上,并利用LSM树结构来支持大量的数据更新和快速查询。

(三)读写方式

  • 读取:你可以从历史快照、最新的偏移量,或者以混合方式读取增量快照。
  • 写入Paimon支持从数据库变更日志(CDC)进行流式同步,或者从离线数据进行批量插入/覆盖。

(四)生态系统

Paimon不仅与Apache Flink兼容,还支持Apache HiveApache SparkTrino等其他计算引擎的读取。

http://www.lryc.cn/news/488279.html

相关文章:

  • c++调用 c# dll 通过 P/Invoke (详细避坑)
  • 李春葆《数据结构》——图相关代码
  • Linux驱动开发第2步_“物理内存”和“虚拟内存”的映射
  • 告别多品牌乱战,吉利开始觉醒
  • Target-absent Human Attention
  • <QNAP 453D QTS-5.x> 日志记录:在 Docker 中运行的 Flask 应用安装 自签名 SSL 证书 解决 Chrome 等浏览器证书安全
  • 通过huggingface-cli下载Hugging Face上的公开数据集或模型至本地
  • 论文阅读——Intrusion detection systems using longshort‑term memory (LSTM)
  • SparkSQL的执行过程:从源码角度解析逻辑计划、优化计划和物理计划
  • Leetcode打卡:新增道路查询后的最短距离II
  • Spring Web入门练习
  • 计算机毕业设计 | SpringBoot+vue汽车资讯网站 汽车购买咨询管理系统(附源码+论文)
  • stm32下的ADC转换(江科协 HAL版)
  • 解决IntelliJ IDEA的Plugins无法访问Marketplace去下载插件
  • react 如何修改弹出的modal的标题
  • C#中的二维数组的应用:探索物理含义与数据结构的奇妙融合
  • HTML5拖拽API学习 托拽排序和可托拽课程表
  • 内容补充页(相关公式解释)
  • vue中动态渲染静态图片资源
  • 管伊佳ERP,原名华夏ERP,一个简约易上手的国产ERP系统
  • 学习虚幻C++开发日志——委托(持续更新中)
  • 开窗函数 - first_value/last_value
  • 「一」HarmonyOS端云一体化概要
  • nodejs21: 快速构建自定义设计样式Tailwind CSS
  • 从JSON数据提取嵌套字段并转换为独立列的简洁方法
  • 湘潭大学软件工程算法设计与分析考试复习笔记(四)
  • 特征交叉-DeepCross Network学习
  • stm32cubemx+VSCODE+GCC+makefile 开发环境搭建
  • Go语言中的Defer机制详解与示例
  • H.265流媒体播放器EasyPlayer.js H5流媒体播放器如何验证视频播放是否走硬解