当前位置: 首页 > news >正文

【大数据架构】基于流式数据的大数据架构升级

背景

团队在升级大数据架构,摒弃了原来基于hadoop的架构,因此抛弃了hive,hdfs,mapreduce这一套,在讨论和摸索中使用了新的架构。

后端使用kafka流式数据通过rest catalog写入iceberg,存储于minio。在写入iceberg的时候,首先是写data数据文件,然后再写iceberg的metadata文件,分两步走,在kafka中有两个topic,一个负责些data数据文件,一个负责些iceberg的metadata文件。

当然这样会产生大量的小文件,那么我们还有一个程序使用网易的amro来监控数据库表的data目录,设置好参数实时的去合并这些小文件,总体效果不错。

前端使用trino查询,对trino也进行了很多优化,目前测试来看,运行还算稳定,但是不可避免的trino的任务总会出现失败的情况。原来的架构是trino失败后去跑hive,而hive是跑mapreduce依赖于hadoop,新架构摒弃了hadoop,当然也没法用hive跑了,因此目前看较好的办法是使用spark sql来替代。

参考我另一边文章

【kyuubi-spark】从0-

http://www.lryc.cn/news/366683.html

相关文章:

  • OpenCV中的圆形标靶检测——斑点检测算法(二)
  • 网线制作(双绞线+水晶头)——T568B标准
  • 湖南源点(市场研究咨询)如何产出更加有意义的竞品调研
  • Qt/C++音视频开发76-获取本地有哪些摄像头名称/ffmpeg内置函数方式
  • 09 platfrom 设备驱动
  • 【C#】C#读写Excel文件
  • 数据流图(DFD)绘制规范
  • 有待挖掘的金矿:大模型的幻觉之境
  • 常见八大排序(纯C语言版)
  • vue2学习(06)----vuex
  • webflux 拦截器验证token
  • C++中的继承方式
  • Vue进阶之Vue无代码可视化项目(四)
  • day40--Redis(二)实战篇
  • 使用Ollama+OpenWebUI本地部署Gemma谷歌AI开放大模型完整指南
  • react的自定义组件
  • 海宁代理记账公司-专业的会计服务
  • matlab 计算三维空间点到直线的距离
  • YOLOv5车流量监测系统研究
  • 单元测试覆盖率
  • 逻辑这回事(三)----时序分析与时序优化
  • [JAVASE] 类和对象(二) -- 封装
  • 开发网站,如何给上传图片的服务器目录授权
  • 特别名词Test Paper2
  • 数据结构-AVL树
  • 数字科技如何助力博物馆设计,强化文物故事表现力?
  • 德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第七周) - 结构化预测
  • 5-Maven-setttings和pom.xml常用配置一览
  • input输入框设置样式
  • 平稳交付 20+ 医院,卓健科技基于 OpenCloudOS 的落地实践