当前位置: 首页 > news >正文

Hive窗口函数

概述

        窗口函数(window functions)也叫开窗函数、OLAP函数。

  •         如果函数具有over子句,则它是窗口函数
  •         窗口函数可以简单地解释为类似于聚合函数的计算函数,但是通过group by 子句组合的          常规聚合会隐藏正在聚合的各个行,最终输出一行,窗口函数聚合后还可以访问当中的            各个行,并且可以将这些行中的某些属性添加到结果集中

实例

数据

cookie1,2021-05-10,1
cookie1,2021-05-11,5
cookie1,2021-05-12,7
cookie1,2021-05-13,3
cookie1,2021-05-14,2
cookie1,2021-05-15,4
cookie1,2021-05-16,4
cookie2,2021-05-10,2
cookie2,2021-05-11,3
cookie2,2021-05-12,5
cookie2,2021-05-13,6
cookie2,2021-05-14,3
cookie2,2021-05-15,9
cookie2,2021-05-16,7

建表语句 

create table if not exists website_pv
(cookieid   string,createtime string,pv         int
)row format delimited fields terminated by ',';

 --插入数据

load data inpath '/website_pv.txt' into table website_pv;

 sum+group by 常规聚合操作

sum+窗口函数聚合操作 

窗口表达式 

在 sum(pv) over (partition by cookieid order by createtime) 语法完整的情况下,进行累积聚合操作,默认累积聚合行为是:从第一行聚合到当前行

 window expression 窗口表达式给我们提供了一种控制行范围的能力,比如向前2行,向后3行,语法如下:

关键字是 rows between... and ... ,包括下面这几个选项

  •  PRECEDING:往前 
  •  FOLLOWING:往后 
  •  CURRENT ROW:当前行 
  •  UNBOUNDED:起点
  • UNBOUNDED PRECEDING 表示从前面的起点
  • UNBOUNDED FOLLOWING:表示到后面的终点

 窗口排序函数 

row_number()、rank()、dense_rank()

适用场景: 适合topN业务分析

row_number():在每个分组中,为每行分配一个从1开始的唯一序列号,递增,不考虑重复;
rank():在每个分组中,为每行分配一个从1开始的序列号,考虑重复,挤占后续位置;
dense_rank():在每个分组中,为每行分配一个从1开始的序列号,考虑重复,不挤占后续位置;

 需求:找出每个用户访问pv最多的Top3重复并列的不考虑

 ntile()

将每个分组内的数据分为指定的若干个桶里(分为若干个部分),并且为每一个桶分配一个桶编号

如果不能平均分配,则优先分配较小编号的桶,并且各个桶中能放的行数最多相差1

 窗口分析函数

lag(col,n,default):用于统计窗口内往上第n行值

        第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为null时,取默认值,如果不指定,则为null)

lead(col,n,default):用于统计窗口内往下第n行值

        第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认值(当往下第n行为null时,取默认值,如果不指定,则为null)

first_value:取分组内排序后,截止到当前行,第一个值

last_value:取分组内排序后,截止到当前行,最后一个值

http://www.lryc.cn/news/17693.html

相关文章:

  • C++学习笔记(1):在默认构造函数内部使用带参数的构造函数
  • Android面试题_安卓面经(23/30)设计模式源码案例
  • Dubbo性能调优参数以及原理
  • vue3全家桶之vuex和pinia持久化存储基础(二)
  • LAMP架构与搭建论坛
  • 代码随想录 || 回溯算法93 78 90
  • 界面组件Kendo UI for Angular——让网格数据信息显示更全面
  • 【Linux】进程状态|优先级|进程切换|环境变量
  • 合宙Air780E|FTP|内网穿透|命令测试|LuatOS-SOC接口|官方demo|学习(18):FTP命令及应用
  • 大规模 IoT 边缘容器集群管理的几种架构-4-Kubeedge
  • Spring底层核心原理解析
  • OpenStack手动分布式部署Glance【Queens版】
  • 谈一谈你对View的认识和View的工作流程
  • Redis集群的脑裂问题
  • 互斥信号+任务临界创建+任务锁
  • Elasticsearch7.8.0版本进阶——文档搜索
  • spring security权限问题
  • mysql 8.0.22安装
  • Mysql系列:Mysql5.7编译安装
  • 设备树(配合LED驱动说明)
  • (二十六)大白话如何从底层原理解决生产的Too many connections故障?
  • ASEMI高压MOS管60R380参数,60R380特征,60R380应用
  • Python期末试卷
  • Linux | 网络通信 | http协议介绍 | cookie策略讲解
  • 招投标系统简介 招投标系统源码 java招投标系统 招投标系统功能设计
  • winapi获取和修改camera raw界面元素数据
  • C++问答汇总_2023自用
  • IDA 实战--(2)熟悉工具
  • Deep Unsupervised Learning using Nonequilibrium Thermodynamics论文翻译学习
  • 使用Autoware标定工具包联合标定相机和激光雷达