当前位置: 首页 > news >正文

【Iceberg分析】Spark与Iceberg集成落地实践(一)

Spark与Iceberg集成落地实践(一)

文章目录

  • Spark与Iceberg集成落地实践(一)
    • 清理快照与元数据
      • 配置表维度自动清理元数据文件属性
      • 手动清理
    • 清理孤岛文件
    • 合并数据文件

清理快照与元数据

配置表维度自动清理元数据文件属性

每一次写入数据和表变更都会进行一次元数据的版本迭代,默认保存所有。

PropertyDescription
write.metadata.delete-after-commit.enabled每次表提交后是否删除旧的跟踪的元数据文件
write.metadata.previous-versions-max要保留的旧元数据文件的数量

SPARK DDL语句

建表时确认metadata生命周期

		sparkSession.sql("CREATE TABLE local.iceberg_db.table2( id bigint, data string, ts timestamp) USING iceberg PARTITIONED BY (day(ts)) TBLPROPERTIES('write.metadata.delete-after-commit.enabled'='true','write.metadata.previous-versions-max'='3')");

更改表的metadata生命周期

        sparkSession.sql("ALTER TABLE local.iceberg_db.table2 SET TBLPROPERTIES(" +"'write.metadata.delete-after-commit.enabled'='true'," +"'write.metadata.previous-versions-max'='3'" +")");

作用

这只会删除元数据日志中跟踪的元数据文件,而不会删除孤立的元数据文件。

清理从metadata.json链路开始的至data的所有文件,如下图:

数据层
元数据层
data file1
data file2
data file3
data file4
v2.metadata.json
Manifest list1
Manifest file1
Manifest file2

手动清理

        org.apache.iceberg.Table table = org.apache.iceberg.spark.Spark3Util.loadIcebergTable(spark, "local.iceberg_db.table2");long tsToExpire = System.currentTimeMillis() - (1000 * 60 * 60 * 24); // 保留一天org.apache.iceberg.spark.actions.SparkActions.get().expireSnapshots(table).expireOlderThan(tsToExpire).execute();

清理孤岛文件

孤岛文件的产生:

在 Spark 和其他分布式处理引擎中,任务或作业失败可能会留下未被表元数据引用的文件,在某些情况下,正常快照过期可能无法确定文件不再需要并将其删除。任务失败之后,最好进行一次清理表孤岛文件,若表相关任务成功,则不需要进行清理孤岛文件操作。

		org.apache.iceberg.Table table = org.apache.iceberg.spark.Spark3Util.loadIcebergTable(spark, "local.iceberg_db.table2");org.apache.iceberg.spark.actions.SparkActions.get().deleteOrphanFiles(table).execute();

合并数据文件

目前发现,需要分区类有标记删除的记录才会进行合并,why?

		org.apache.iceberg.Table table = org.apache.iceberg.spark.Spark3Util.loadIcebergTable(spark, "local.iceberg_db.table2");org.apache.iceberg.spark.actions.SparkActions.get().rewriteDataFiles(table).filter(Expressions.equal("ts", "2024-09-29")).option("target-file-size-bytes", Long.toString(500 * 1024 * 1024)) // 目标大小500 MB.execute();
http://www.lryc.cn/news/455268.html

相关文章:

  • 【Verilog学习日常】—牛客网刷题—Verilog进阶挑战—VL45
  • 【强训笔记】day27
  • Nginx06-静态资源部署
  • MySQL数据库专栏(二)SQL语句基础操作
  • 【OpenCV 实战】1.手势虚拟拖拽(双手骨骼点识别)
  • 基于springboot人力资源管理系统源码
  • 如何使用 Apt-Get 和 Apt-Cache 在 Ubuntu 和 Debian 中管理软件包
  • Linux系统创建新分区并挂载的方法
  • 反射第二弹:用注册器动态注册(用自定义的注解标注的)策略,实现策略模式的设计
  • 【Xcode Command Line Tools】安装指南
  • springboot开发网站-使用redis数据库定时特征限制指定ip的访问次数
  • 【大模型理论篇】大模型相关的周边技术分享-关于《NN and DL》的笔记
  • CSS 圆形边框与阴影
  • Bianchi模型、python计算及ns3验证
  • SQL常用语法
  • 计算机毕业设计 玩具租赁系统的设计与实现 Java实战项目 附源码+文档+视频讲解
  • 浏览器前端向后端提供服务
  • 文本到语音或视频的构想
  • 请解释一下数据库的分区和分片?请解释一下数据库的日志和日志的重要性?
  • windows C++-创建数据流代理(二)
  • 大数据毕业设计选题推荐-个性化图书推荐系统-Python数据可视化-Hive-Hadoop-Spark
  • 【Redis入门到精通九】Redis中的主从复制
  • 系统架构设计师论文《论企业应用系统的数据持久层架构设计》精选试读
  • 策略模式和模板模式的区别
  • 【ubuntu】ubuntu20.04安装conda
  • 使用 SAP ABAP Webdynpro 实现 ABAP Push Channel 的 Web Socket 客户端
  • 15分钟学 Python 第41天:Python 爬虫入门(六)第二篇
  • 电脑提示d3dcompiler_47.dll缺失怎么修复,仔细介绍dll的解决方法
  • CPU中的寄存器是什么以及它的工作原理是什么?
  • 【EXCEL数据处理】000021 案例 保姆级教程,附多个操作案例。EXCEL文档安全性设置。