当前位置：首页 > news >正文

【大数据架构】基于流式数据的大数据架构升级

news 2025/9/12 17:24:42

背景

团队在升级大数据架构，摒弃了原来基于hadoop的架构，因此抛弃了hive，hdfs，mapreduce这一套，在讨论和摸索中使用了新的架构。

后端使用kafka流式数据通过rest catalog写入iceberg，存储于minio。在写入iceberg的时候，首先是写data数据文件，然后再写iceberg的metadata文件，分两步走，在kafka中有两个topic，一个负责些data数据文件，一个负责些iceberg的metadata文件。

当然这样会产生大量的小文件，那么我们还有一个程序使用网易的amro来监控数据库表的data目录，设置好参数实时的去合并这些小文件，总体效果不错。

前端使用trino查询，对trino也进行了很多优化，目前测试来看，运行还算稳定，但是不可避免的trino的任务总会出现失败的情况。原来的架构是trino失败后去跑hive，而hive是跑mapreduce依赖于hadoop，新架构摒弃了hadoop，当然也没法用hive跑了，因此目前看较好的办法是使用spark sql来替代。

参考我另一边文章

【kyuubi-spark】从0-

查看全文

http://www.lryc.cn/news/366683.html