当前位置: 首页 > news >正文

Spark学习:spark相似算子解析

spark算子

    • 一、Map、Flatmap和MapPartition
    • 二、repartition和coalesce
    • 三、reduceByKey和groupByKey
    • 四、collect、take和first

一、Map、Flatmap和MapPartition

算子作用
map接收一个高阶函数f,对每个算子进行f操作
flatmap接收一个高阶函数f,对每个元素进行f操作,形成一个大的集合,然后在迭代器返回每个元素
mapPartitionsmap()是每次处理一条数据,mappartitions是每次处理一个分区中的数据,由于是遍历分区,减少了发送到执行器的交互次数,效率优于map(),但执行器内存不足可能会造成OOM(),因此内存空间较大的时候建议用mappartitions

二、repartition和coalesce

算子作用
repartition调增rdd的并行度,会引入shuffle
http://www.lryc.cn/news/22957.html

相关文章:

  • MySQL操作数据表-----------创建数据表(一)
  • Java “框架 = 注解 + 反射 + 设计模式” 之 注解详解
  • 特斯拉4D雷达方案首次曝光!高阶智驾市场比拼安全冗余
  • Echarts 每个柱子一种渐变色的象形柱状图
  • 叠氮试剂79598-53-1,6-Azidohexanoic Acid,6-叠氮基己酸,末端羧酸可与伯胺基反应
  • Nginx网站服务——编译安装、基于授权和客户端访问控制
  • Spring Boot 版本升级2.2.11.RELEASE至2.7.4
  • OpenShift 4 - 使用辅助安装器安装单节点 OpenShift
  • Allegro如何快速锁定整板测试点操作指导
  • 系统分析师---知识产权标准化思维导图
  • HiEV洞察 | 特斯拉HW4.0再爆猛料,高精定位、雷达均有变动
  • 潜伏的 Linux Rootkit:Syslogk
  • JVM总结
  • AOF:redis宕机,如何避免数据丢失
  • LC-3—MIO、MMIO、Caller Save、Callee Save
  • SQL注入报错注入之floor()报错注入原理分析
  • 2023CS双非保研985经验分享(南大、华科、中科大科学岛、国防科大、西交、中南、深圳大学、北邮、中科院等)
  • Shell中的IFS
  • Java学习线路图--书籍推荐
  • 【GO】k8s 管理系统项目23[前端部分–工作负载-Pod]
  • rabbitmq在linux系统下安装步骤
  • 阿里测试员晒薪资条,看完真的扎心了...
  • 内网渗透辅助工具集Yasso
  • Spring笔记(1):概述
  • 工程机械焊接件焊接结构件三维扫描检测外观质量控制-CASAIM三维扫描检测仪
  • 使用linux部署项目步骤
  • pt02-list-tuple-dir
  • 高端电器新十年,求解「竞速突围」
  • [Android Studio] Android Studio使用keytool工具读取Debug 调试版数字证书以及release 发布版数字证书
  • 2023年金三银四必备软件测试常见面试题1500问!!!【测试思维篇】