当前位置: 首页 > news >正文

Parquet学习与使用之BloomFilter的应用

写在前面

最近在自己做自定义的OLAP系统,文件格式上用的是Parquet,但是发现Parquet各个API的示例代码很少。所以就打算把这个系列的文章写一下。

1. Parquet的Filter

Parquet的过滤支持两大类,一类是基于Footer中的元数据进行RowGroup级别的过滤;这种过滤能够实现减少IO的目的,它通过元数据里的信息直接可以实现跳过RowGroup的读取。
另一类是对每一行进行过滤,此类对于减少IO没有作用,只是代码优雅一些,不用把所有的数据都读到客户端代码里进行过滤。

2. Parquet对RowGroup的过滤的基本介绍

当前最新版本1.12.x 中支持3类:

  1. 字典 - 如果列的值域空间不大,则用字典(parquet能够自己识别是否使用字典作为一列的过滤器)
  2. statistics - 数值型的min/max
  3. bloomFilter - 如果列值域比较大,则不是相对分段聚合的,则无法用1-2.则考虑用bloomFilter(如果使用bloomFilter需要在写入时指定要使用bloomFilter的列)

3. Parquet 应用BloomFilter的示例代码

3.1 写入Parquet文件

并指定user_id列使用BloomFilter

        ParquetWriter<Object> parquetWriter = AvroParquetWriter.builder(path).withSchema(userFlowTraceSchema).withCompressionCodec(CompressionCodecName.GZIP).withBloomFilterEnabled("user_id", true).build();

3.2 读取Parquet文件

目前BloomFilter仅支持Eq和In操作;其他类型和自定义的操作都直接被返回了 BLOCK_MIGHT_MATCH(true)- 即不过滤
源码见:org.apache.parquet.filter2.bloomfilterlevel.BloomFilterImpl

读取文件,并使用BloomFilter的示例:

GroupReadSupport readSupport = new GroupReadSupport();
String targetUserId1 = "9639102999811";
String targetUserId2 = "9639102999711";
Filter bloomFilterIn = FilterCompat.get(FilterApi.in(FilterApi.binaryColumn("user_id"),Sets.newHashSet(Binary.fromString(targetUserId1),Binary.fromString(targetUserId2))));
ParquetReader<Group> reader = ParquetReader.builder(readSupport, path).withFilter(bloomFilterIn).build();
http://www.lryc.cn/news/32153.html

相关文章:

  • 95%置信区间计算-理解
  • 深度学习pytorch实战三:VGG16图像分类篇自建数据集图像分类三类
  • 2023年3月软考高项(信息系统项目管理师)报名走起!!!
  • 模电学习11 运算放大器学习入门
  • spring学习3.5
  • 名创优品:国内“触礁”,海外“提速”
  • Java学习笔记 --- Tomcat
  • 面向对象设计模式:行为型模式之状态模式
  • 【Python入门第二十五天】Python 作用域
  • 运行时数据区及程序计数器
  • 手写操作系统+文件系统开源啦
  • 小众但意外觉得蛮好用的剪辑软件!纯良心分享
  • 一文带你入门angular(下)
  • 2023-3-6刷题情况
  • 一篇教你解决如何在不加锁的情况下解决多线程问题!
  • OPT(奥普特)一键测量传感器SmartFlash高精度的四重保证
  • 网络协议丨从物理层到MAC层
  • 【Maven】(五)Maven模块的继承与聚合 多模块项目组织构建
  • Linux 常用软件安装(jdk,redis,mysql,minio,kkFileView)
  • 单链表及其相关函数
  • Linux段错误调试
  • Gopro卡无法打开视频恢复方法
  • vmware虚拟机与树莓派4B安装ubuntu1804 + ros遇到的问题
  • JS逆向hook通用脚本合集
  • nacos的介绍和下载安装(详细)
  • 【算法经典题集】前缀和与数学(持续更新~~~)
  • 寻找时空中的引力波:科学家控制量子运动至量子基态
  • 第六讲:ambari-web 模块二次开发
  • echarts--提示框显示不全问题记录
  • LeetCode 1653. 使字符串平衡的最少删除次数