当前位置: 首页 > news >正文

Hive中order by,sort by,distribute by,Cluster by

order by

对数据进行全局排序, 只有一个reducer Task, 效率低

mysql中strict模式下, order by必须要有limit, 不然会拒绝执行. 对于分区表, 必须显示指定分区字段查询

sort by

可以有多个reduce Task(以distribute by后的字段个数为准)

每个reduce Task内部数据有序, 但全局无序

distribute by

按照指定的字段对数据进行划分到不同的输出reduce文件中

distribute by相当于MR中的partitioner

distribute by通常和sort by连用: select * from logs distribute by date sort by te;

注意,Hive 要求 DISTRIBUTE BY 语句要写在 SORT BY 语句之前。

Cluster by

如果sort by和distribute by中所有的列相同, 可以缩写为Cluster by以便同时指定两者所使用的列

注意被Cluster by指定的列只能降序, 一般用于桶表

http://www.lryc.cn/news/35966.html

相关文章:

  • PyTorch的自动微分(autograd)
  • sum-check protocol
  • 数据结构刷题(二十一):131分割回文串、78子集
  • Spring Aop 详解
  • 【数据库死锁】线上问题之数据库死锁
  • 好友管理系统--课后程序(Python程序开发案例教程-黑马程序员编著-第4章-课后作业)
  • Redis 集群 Redis Cluster搭建
  • 博客系统(前后端分离版)
  • 第十二章 opengl之模型加载(Assimp)
  • Stable Matching-稳定匹配问题【G-S算法,c++】
  • TypeScript(四)接口
  • Python-基础知识
  • 【java基础】集合基础说明
  • MySQL的下载及安装详细教程
  • SSL/TLS协议工作原理
  • 大数据项目实战之数据仓库:用户行为采集平台——第4章 用户行为数据采集模块
  • 《统计学习方法》(李航)——学习笔记
  • 阿里云EMR集群搭建及使用
  • 学习streamlit-4
  • 高级Oracle DBA面试题及答案
  • 程序员成长路线
  • 【Galois工具开发之路】关于类的重新装载思路
  • 哪款蓝牙耳机音质好?内行推荐四款高音质蓝牙耳机
  • Android程序自动在线升级安装
  • JS的BroadcastChannel与MessageChannel
  • nextjs开发 + vercel 部署 ssr ssg
  • Good Idea, 利用MySQL JSON特性优化千万级文库表
  • 【python游戏制作】快来跟愤怒的小鸟一起攻击肥猪们的堡垒吧
  • ARM 学习(一)
  • 深入分析Java的序列化与反序列化