当前位置: 首页 > news >正文

Spark开窗函数之ROW

Spark 1.5.x版本以后,在Spark SQL和DataFrame中引入了开窗函数,其中比较常用的开窗函数就是row_number 该函数的作用是根据表中字段进行分组,然后根据表中的字段排序;其实就是根据其排序顺序,给组中的每条记录添 加一个序号;且每组的序号都是从1开始,可利用它的这个特性进行分组取top-n。
比如,A表关联B表,2个表关联的字段是PO_NO,现在发现B表数据重复,只能随机取一笔,就可以这样做:

select ph.*, pl.responsible_department_code
from table_a ph
left join (select * from (select po_no,responsible_department_code,row_number() over(partition by po_no order by po_no) row_numfrom table_b) twhere t.row_num = 1) pl
on ph.po_no = pl.po_no
http://www.lryc.cn/news/338765.html

相关文章:

  • 双向链表的实现(详解)
  • SpringBoot项目中如何使用校验工具
  • AI预测小分子与蛋白的相关特征: MegaMolBART, MoFlow,ESM-1, ESM-2
  • 基于深度学习的花卉检测系统(含PyQt界面)
  • 深度学习图像处理基础工具——opencv 实战信用卡数字识别
  • 【HBase】HBase高性能架构:如何保证大规模数据的高可用性
  • JAVA基础两个项目案例代码
  • asp.net core 网页接入微信扫码登录
  • 【板栗糖GIS】如何给微软拼音输入法加上小鹤双拼
  • 如何解决微信小程序无法使用css3过度属性transition
  • 【软件设计师知识点】九、网络与信息安全基础知识
  • 广东省道路货物运输资格证照片回执可手机线上办理
  • 【微信小程序——案例——本地生活(列表页面)】
  • 【设计模式】SOLID设计原则
  • 基于java+springboot+vue实现的智能停车计费系统(文末源码+Lw+ppt)23-30
  • IntelliJ IDEA 2022.3.2 解决decompiled.class file bytecode version:52.0(java 8)
  • C++11 设计模式1. 模板方法(Template Method)模式学习。UML图
  • HarmonyOS实战开发-自定义分享
  • Spring源码刨析之配置文件的解析和bean的创建以及生命周期
  • 如何使用 Grafana 监控文件系统状态
  • 智能革命:未来人工智能创业的天地
  • 4月14日总结
  • kafka---broker相关配置
  • 【Golang学习笔记】从零开始搭建一个Web框架(二)
  • 高精度地图导航论文汇总
  • 【域适应】基于域分离网络的MNIST数据10分类典型方法实现
  • 从零实现诗词GPT大模型:pytorch框架介绍
  • [目标检测] OCR: 文字检测、文字识别、text spotter
  • Windows环境下删除MySQL
  • uniapp:uview-plus的一些记录