当前位置: 首页 > news >正文

Hive Sampling 抽样函数:Random随机抽样、Block 基于数据块抽样、Bucket table 基于分桶表抽样

Hive Sampling 抽样函数

文章目录

  • Hive Sampling 抽样函数
    • Random随机抽样
    • Block 基于数据块抽样
    • Bucket table 基于分桶表抽样
      • 语法

在HQL中,可以通过三种方式采样数据:随机采样,存储桶表采样和块采样。

Random随机抽样

  • 随机抽样使用rand()函数确保随机获取数据,LIMIT来限制抽取的数据个数。
  • 表数据多时抽样速度不快,但随机。
  • 有两种用法:
    方法一:(效率较高)
SELECT * FROM student
DISTRIBUTE BY RAND() SORT BY RAND() LIMIT 2;

方法二:

SELECT * FROM student
ORDER BY RAND() LIMIT 2;

Block 基于数据块抽样

  • 允许随机获取n行数据、百分比数据、指定大小的数据
  • 采样粒度是HDFS块大小
  • 优点是速度快,但不随机
  • 例:
  1. 获取1行数据:
SELECT * FROM student
TABLESAMPLE(1 ROWS);
  1. 百分比数据:
SELECT * FROM student
TABLESAMPLE(50 PERCENT);
  1. 指定大小的数据:
SELECT * FROM student
TABLESAMPLE(1k);

Bucket table 基于分桶表抽样

  • 一种特殊的采样方法,针对分桶表进行了优化
  • 抽样既随机,速度也很快。

语法

  • y必须是table总桶数的倍数或因子。hive根据y的大小,决定抽样的比例。(当y=2,有4个桶时,抽取4/2个桶的数据)
  • x表示从哪个桶开始抽取。
  • x的值必须小于y的值。
  • ON colname表示基于什么抽
    1. ON RAND():表示随机抽
    2. ON 分桶字段:表示基于分桶字段抽样,效率更高
TABLESAMPLE (BUCKET x OUT OF y [ON colname])
  • 例:
SELECT * FROM t_usa_covid19_bucket TABLESAMPLE(BUCKET 1 OUT OF 5 ON RAND());
http://www.lryc.cn/news/14556.html

相关文章:

  • 2023年中职网络安全竞赛跨站脚本渗透解析-1(超详细)
  • 虚拟 DOM 详解
  • Delphi Http Https 最好的解决方法(一)
  • Allegro无法打开10度走线命令的原因和解决办法
  • Frequency Domain Model Augmentation for Adversarial Attack
  • react源码中的协调与调度
  • 如何快速、全面、深入地掌握一门编程语言
  • python五子棋代码最简单的,python五子棋代码画棋盘
  • C++ 智能指针的原理:auto_ptr、unique_ptr、shared_ptr、weak_ptr
  • 二叉树前中后层次遍历,递归实现
  • 【RA4M2系列开发板GPIO体验2按键控制LED】
  • 初步介绍CUDA中的统一内存
  • UVM实战--加法器
  • Linux系统点亮LED
  • 在superset中快速制作报表或仪表盘
  • 【可视化实战】Python 绘制出来的数据大屏真的太惊艳了
  • Obsidium一键编码作业,Obsidia惊人属性
  • 约束优化:约束优化的三种序列无约束优化方法
  • RocketMQ快速入门:消息发送、延迟消息、消费重试
  • FANUC机器人通过KAREL程序实现与PLC位置坐标通信的具体方法示例
  • [蓝桥杯 2015 省 B] 移动距离
  • Pandas库入门仅需10分钟
  • python的socket通信中,如何设置可以让两台主机通过外网访问?
  • 检测数据的方法(回顾)
  • 比特数据结构与算法(第三章_上)栈的概念和实现(力扣:20. 有效的括号)
  • JVM13 类的生命周期
  • Docker网络模式解析
  • 游山城重庆
  • Vuex的创建和简单使用
  • Arduino IDE搭建Heltec开发板开发环境