当前位置: 首页 > news >正文

hive中的四种排序类型

1、Order by 全局排序

ASC(ascend): 升序(默认)
DESC(descend): 降序

注意 :只有一个 Reducer,即使我们在设置set reducer的数量为多个,但是在执行了order by语句之后,当前此次的运算还是只有1个reducer,因为order by要做的是全局分区。(开窗函数内是分区内排序,不在此问题)

验证:

set mapreduce.job.reduces=3;
select * from stu_scores order by math;

总结:order by 语句的运行效率较低,一般要配合limit 使用。

2、Sort By 在每一个Reduce的job中进行排序

设置reduce 的job数为3

set mapreduce.job.reduces=3;

查看设置的reduce 的job数量

set mapreduce.job.reduces

测试sort by:

select * from stu_scores sort by math;

备注:在3个reduce job中分别进行排序。

3、Distribute By 分区(结合 sort by 使用)

有些场景我们需要控制某些特定行应该到同一reducer,做一些聚集操作。

distribute by 类似 MR 中 partition(自定义分区),进行分区,结合 sort by 使用。

设置reduce 的job数为3

set mapreduce.job.reduces=3;

查看设置的reduce 的job数量

set mapreduce.job.reduces

测试 distribute by....sort by

# 按照stu_id分区,分区内使用math排序

select * from stu_scores distribute by stu_id sort by math;

分区逻辑:根据distribute by 后的字段hash码与reduce 的个数进行模数后,决定分区路由。

4、cluster by

当 distribute by 和 sort by 字段相同时,可以使用 cluster by 方式。但是排序只能是升序排序,不能指定排序规则为 ASC 或者 DESC。

select * from stu_scores cluster by math;
select * from stu_scores distribute by math sort by math;

总结: cluster by 等价于distribute by 和 sort by 字段的升序排序。

http://www.lryc.cn/news/513296.html

相关文章:

  • Spring-AI讲解
  • 【brew安装失败】DNS 查询 raw.githubusercontent.com 返回的是 0.0.0.0
  • HTML——29. 音频引入二
  • 代码随想录训练营第三十四天| 62.不同路径 63. 不同路径 II
  • V90伺服PN版组态配置<一>
  • 又一年。。。。。。
  • xterm + vue3 + websocket 终端界面
  • 医疗数仓业务数据采集与同步
  • 数字孪生智慧水利与水务所包含的应用场景有哪些?二者有何区别
  • Qt Creator项目构建配置说明
  • 进程间通信的“五大武器”
  • 全国青少年信息学奥林匹克竞赛(信奥赛)备考实战之循环结构(for循环语句)(六)
  • 封装echarts成vue component
  • uniapp Stripe 支付
  • Windows onnxruntime编译openvino
  • vue3+TS+vite中Echarts的安装与使用
  • 期末算法分析程序填空题
  • 搭建android开发环境 android studio
  • R语言6种将字符转成数字的方法,写在新年来临之际
  • RocketMQ学习笔记(持续更新中......)
  • 强化学习的基础概念
  • excel怎么删除右边无限列(亲测有效)
  • STM32-笔记23-超声波传感器HC-SR04
  • Linux | Ubuntu零基础安装学习cURL文件传输工具
  • 什么是 GPT?Transformer 工作原理的动画展示
  • SpringCloudAlibaba实战入门之路由网关Gateway过滤器(十三)
  • 电路仿真软件PSIM简介
  • C语言:调试的概念和调试器的选择
  • 25. C++继承 1 (继承的概念与基础使用, 继承的复制兼容规则,继承的作用域)
  • git 退出编辑模式