当前位置: 首页 > news >正文

利用HIVE的窗口函数进行SQL查询中出现的问题记录

student_info部分数据

 

score_info部分数据

 

course_info

1、问题复现

--完整SQL
selectsti.stu_id,sti.stu_name,concat_ws(",",collect_set(ci.course_name)) over(partition by sti.stu_id)
fromstudent_info sti
left joinscore_info sci
onsti.stu_id=sci.stu_id
left joincourse_info ci
onsci.course_id=ci.course_id
limit 13

2、错误分析

        在Hive的SELECT子句中使用窗口函数时,需要确保窗口规范(OVER子句)中的所有非聚合列都出现在GROUP BY子句中。因为Hive需要能够确定如何对数据进行分组以应用窗口函数。

在提供的查询中,使用了collect_list函数来收集每个学生的课程名称,并希望使用窗口函数来实现分区。然而,由于ci.course_name没有出现在GROUP BY子句中,Hive无法确定如何对数据进行分组。

3、解决措施

为了解决这个问题,我在这里尝试修改查询,将ci.course_name包含在GROUP BY子句中。再次运行还是报错,于是查询了这个collect_list函数,由于collect_list函数本身就是根据sti.stu_idci.course_name进行分组的,所以实际上我们不需要在GROUP BY子句中重复这些列,所以最后修改为下面的SQL后运行成功:

SELECTsti.stu_id,sti.stu_name,concat_ws(",", collect_list(ci.course_name)) AS stu_courses_sum
FROMstudent_info sti
LEFT JOINscore_info sci
ONsti.stu_id = sci.stu_id
LEFT JOINcourse_info ci
ONsci.course_id = ci.course_id
GROUP BYsti.stu_id, sti.stu_name
LIMIT 13;

4、思考

        在此查询中分别测试了大小表顺序不同的join,发现大表在前也不一定查询效率低,这次查询时大表在前查询速度比在后要快一些。我分析原因可能时on后的过滤条件起到了作用。

http://www.lryc.cn/news/328114.html

相关文章:

  • 更改chatglm认知
  • WPF 界面命令绑定(MVVM结构)
  • 常见手撕项目C++
  • 创建一个批处理作业来处理大量数据,例如从数据库中读取数据并进行处理
  • LeetCode 2.两数相加
  • 如何利用ChatGPT提升学术论文写作效率
  • LLMs之Mistral:Mistral 7B v0.2的简介、安装和使用方法、案例应用之详细攻略
  • 深入解析Oracle数据库中的WITH AS(CTE)原理
  • Linux 环境安装 Elasticsearch 8.X
  • Java零基础-集合:函数式接口
  • Redis Scan指令解析与使用示例
  • Qt+OpenGL入门教程(三)——绘制三角形
  • springcloud基本使用(搭建eureka服务端)
  • 第十二章:预处理命令
  • Game Audio Programming
  • 高风险IP来自哪里:探讨IP地址来源及其风险性质
  • 【每日跟读】常用英语500句(300~400)
  • 设计模式(7):装饰器模式
  • Flink SQL填坑记3:两个kafka数据关联查询
  • 移动平台实时动态多点光源方案:Cluster Light
  • 2024年03月CCF-GESP编程能力等级认证C++编程八级真题解析
  • (十一)图像的罗伯特梯度锐化
  • 实验九 枚举问题(运算模拟)
  • 2024 年 AI 辅助研发趋势:从研发数字化到 AI + 开发工具 2.0,不止于 Copilot
  • UE5数字孪生系列笔记(三)
  • ASR-LLM-TTS 大模型对话实现案例;语音识别、大模型对话、声音生成
  • 主干网络篇 | YOLOv8更换主干网络之EfficientNet
  • Web开发-Django学习笔记
  • 关于深度学习的 PyTorch 项目如何上手分析?从什么地方切入?
  • JavaEE企业开发新技术4