当前位置: 首页 > news >正文

Spark窗口函数

1、 Spark中的窗口函数 
        窗口就是单纯在行后面加一个列
        可以套多个窗口函数,但彼此之间不能相互引用,是独立的
        
        窗口函数会产生shuffle
        
        over就是用来划分窗口的

    (1) 分组聚合里面的函数,基本都可以用于窗口函数
           count 、 avg 、 max 、 min
           DENSE_RANK :  连续排序    11122333
           RANK :        跳跃排名    11144666
    
    
    (2) 窗口函数  排序和不排序的区别 :
           不排序  -- 全局结果,同一个组内每一条数据后面的值都一样
           排序    --  累计, 第三条数据是第一条和第二条数据的和
           
           
    (3) 凡是通过自己和自己关联的, 都是可以通过窗口实现的
        
        sum(case when round(r/2)=zhongweishu then sco else 0 end)   -- 下标等于中位数返回true,做sum(sco)求和 , 否则不求和
        


2、 Spark  --  DF与RDD之间的相互转换
    
    创建好 SparkSession 之后可以直接获取 SparkContext
    
    DF比RDD多了列名和列类型
    
    (1) RDD  转换成  DF    --   studentRDD.toDF
            需要注意字段的数量和顺序、 需要导入隐式转换
    
    (2) DF  转换成  RDD    --   studentDF.rdd
    
    

3、 Spark 自定义函数
        所有可以写sql的框架都可以自定义函数
        
        两种情况 :  用在DSL、 用在sql 
    
    (1) 定义自定义函数  
        val ageAdd: UserDefinedFunction = udf((age: Int) => {
          age + 1
        })
        
        
    (2) DSL 可以直接调用 自定义函数
    
    (3) 需要自定义函数, 并注册  才能在sql中使用
        // 注册自定义函数
        spark.udf.register("ageAdd", ageAdd)
        
       

http://www.lryc.cn/news/473650.html

相关文章:

  • Idea、VS Code 如何安装Fitten Code插件使用
  • elasticsearch7.x在k8s中的部署
  • 校园社团信息管理平台:Spring Boot技术实战指南
  • 【Linux】从内核角度理解 TCP 的 全连接队列(以及什么是 TCP 抓包)
  • 太速科技-712-6U VPX飞腾处理器刀片计算机
  • 深度学习(八) TensorFlow、PyTorch、Keras框架大比拼(8/10)
  • thinkphp中命令行工具think使用,可用于快速生成控制器,模型,中间件等
  • Discourse 是否支持手机注册
  • 软件测试学习笔记丨Flask框架-请求与响应
  • 【C++笔记】list结构剖析及其模拟实现
  • C#进阶1
  • PHP如何对输出进行转义
  • Windows 10 安装Docker踩过的坑和解决-31/10/2024
  • 【应急响应】Linux植入恶意程序排查流程
  • 微信小程序app.js里面onLaunch里面的函数比page里面的onshow里面的方法后执行
  • 斐波那契时间序列,精准捕捉市场拐点 MT4免费公式源码!
  • 计算机的错误计算(一百四十)
  • JavaEE初阶---网络原理(四)--IP协议/DNS协议
  • LeetCode20:有效的括号
  • 简单介绍Class文件、Dex文件以及ELF文件
  • Vivo开奖了,劝退价。。
  • 鸿蒙打包hvigorw clean报错No npmrc file is matched in the current user folder解决
  • 无人机救援系统基本组成
  • git入门教程
  • AMBA:AHB_Slave_Mux的解析与HREADY、HREADYOUT
  • 初始Linux (2) : 权限
  • 在Mac下安装时间序列软件Hector
  • JVM1.8内存模型
  • windows C#-类型系统(上)
  • 【酷狗音乐】逆向登录参数分析