当前位置: 首页 > news >正文

flink写parquet解决timestamp时间格式字段问题

背景

        Apache Parquet 是一种开源的列式数据文件格式,旨在实现高效的数据存储和检索。它提供高性能压缩和编码方案(encoding schemes)来批量处理复杂数据,并且受到许多编程语言和分析工具的支持。

        在我们通过flink写入parquet文件的时候,会遇到timestamp时间格式写入的问题。flink官方sdk提供的avro定义转换为parquet文件字段定义是没有timestamp类型的,得另找方法解决。

parquet的时间字段

        parquet字段定义存在如下几种类型:

  • BOOLEAN: 1 bit boolean
  • INT32: 32 bit signed ints
  • INT64: 64 bit signed ints
  • INT96: 96 bit signed ints
  • FLOAT: IEEE 32-bit floating point values
  • DOUBLE: IEEE 64-bit floating point values
  • BYTE_ARRAY: 任意长度 byte 数组

        其中timestamp使用int96类型进行存储,只有使用int96按照指定格式存储时间格式,我们才可以通过hive,sparksql等计算引擎读取正确的时间数据。

flink2parquet

      flink官方提供的写入parquet的处理方式如下:

    String avroSchema = "";//构建parquet格式定义Schema schema = new Schema.Parser().parse(avroSchema);BulkWriter.Factory<GenericRecord> writerFactory = ParquetAvroWriters.forGenericRecord(schema);org.apache.flink.connector.file.sink.FileSink fileSink = org.apache.flink.connector.file.sink.FileSink.forBulkFormat(new org.apache.flink.core.fs.Path("hdfs://xxxxx/xx/xx"), writerFactory).withRollingPolicy(OnCheckpointRollingPolicy.build()).build();datastream.sin
http://www.lryc.cn/news/526717.html

相关文章:

  • redis实现lamp架构缓存
  • 正则表达式中常见的贪婪词
  • CF 339A.Helpful Maths(Java实现)
  • SQL 指南
  • DDD架构实战第七讲总结:分层模型和代码组织
  • Python “字典” 实战案例:5个项目开发实例
  • (一)QT的简介与环境配置WIN11
  • 在 Windows 系统上,将 Ubuntu 从 C 盘 迁移到 D 盘
  • vue2的$el.querySelector在vue3中怎么写
  • GPSd定时检测保活TCP GPS源
  • IDEA中Maven使用的踩坑与最佳实践
  • 使用 Python 调用 OpenAI 的接口初识
  • 2025 最新flutter面试总结
  • 【MQ】RabbitMq的可靠性保证
  • STM32 GPIO配置 点亮LED灯
  • Flink把kafa数据写入Doris的N种方法及对比。
  • Vue - 标签中 ref 属性的使用
  • leetcode-不同路径问题
  • MongoDB 数据库备份和恢复全攻略
  • CentOS7使用源码安装PHP8教程整理
  • Baklib助力内容中台实施的最佳实践与成功案例探索
  • rocketmq-product-send方法源码分析
  • python flask中使用or查询和and查询,还有同时使用or、and的情况
  • 【第一天】零基础入门刷题Python-算法篇-数据结构与算法的介绍(持续更新)
  • 租房管理系统实现智能化租赁提升用户体验与运营效率
  • python3+TensorFlow 2.x(四)反向传播
  • Flutter 使用 flutter_inappwebview 加载 App 本地 HTML 文件
  • Word常见问题:嵌入图片无法显示完整
  • 为AI聊天工具添加一个知识系统 之68 详细设计 之9 三种中台和时间度量 之1
  • On to OpenGL and 3D computer graphics