当前位置：首页 > news >正文

Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存

news 2025/8/8 3:19:21

背景

在使用Zeppelin JDBC Intercepter 对于Hive 数据进行查询过程中，如果遇到非常复杂的sql，查询效率是非常慢

比如：

select dt,count(*) from table group by dt

做过数据开发的同学都知道，在hive sql查询过程中，hive 会被转换为MapReduce，但是对于不是所有sql 都会有mapper和reducer 的过程，如果只是简单的查询不会涉及reducer，只有统计相关的查询会涉及到reducer，而其中的shuffle 和 reducer 是非常耗时

如果有有这样一些sql

sql1:
select * from ( select name,count(*) from table0 group name ) t where name=’xiaohong’sql2:
select * from ( select name,count(*) from table0 group name ) t where name=’xiaoli’

我们能看到sql1 和sql2 只是修改了一下查询条件，但是如果是单独执行，则需要对进行两次完整的查询，比如说：sql1需要花费10分钟，同样sql2也需要再花费10分钟

而adhoc 场景中，这种场景非常常见，只是简单修改一个sql 的查询条件就需要走多次一模一样的流程。

那我们有没有什么办法去优化下？

优化思路分析

无论是hive sql 还是spark sql，只要是复杂的sql，难免会涉及到shuffle或者reducer 过程，这两个过程恰恰是整个过程中非常耗时的过程。那我们现在分析哪些大数据的查询sql会导致查询非常慢呢？

(1)sql 里面含有group by、distinct

(2)sql含有order by，order by 是要根据数据全局排序

(3)含有count、join 这种需要统计和关联其他表数据的sql

上述sql 在大数据查询是都是比较慢的，相教育一些只是简单的过滤查询场景

优化思路流程：

(1)1

当然最后每天晚上要清除一下当天产生的所有临时表，避免表数据过多

非常遗憾的是Zeppelin Committer 认为这个功能可能会影响到项目的整体架构，而不进行合并，所以我在此进行阐述，详细设计和pr参考：https://github.com/apache/zeppelin/pull/4611

http://www.lryc.cn/news/93481.html

相关文章：

用代码实现一个简单计算器

运维圣经：挖矿木马应急响应指南

【Flutter】Flutter 如何获取安装来源信息

Stimulsoft Reports用户手册：Report Designer介绍

跨模态检索论文阅读：Dissecting Deep Metric Learning Losses for Image-Text Retrieval(GOAL)

贪心算法part5 | ● 435. 无重叠区间 ● 763.划分字母区间 ● 56. 合并区间

IMX6ULL裸机篇之SPI实验-ICM20608代码实现

51单片机读取DS18B20温度传感器

JavaScript Web APIs学习总结

萤石摄像头RTSP流获取（黑屏解决）

ThreadLocal引发的内存泄漏分析

银行数据治理：数据质量管理实践

2.7V至25V宽输入电压15A 峰值电流

Vue 父子组件应用指南：从基础到实战

创建autotool项目

计算机概念

【数学建模系列】TOPSIS法的算法步骤及实战应用——MATLAB实现

网络安全（黑客）工具

探究前后端数据交互方式

Yolov5轻量化：CVPR2023｜RIFormer：无需TokenMixer也能达成SOTA性能的极简ViT架构

Spring-Retry实现及原理

学习系列：5种常见的单例模式变体及其实现方式

三菱FX5U系列PLC之间进行简易PLC间链接功能的具体方法

基于DBACAN的道路轨迹点聚类

【项目】接入飞书平台

c++11 标准模板（STL）（std::ios_base）（三）

在线协同办公小程序开发搭建开发环境