当前位置：首页 > news >正文

Spark的常用算子

news 2025/7/7 10:37:38

Spark的常用算子

目录内容

- - Spark的常用算子
  - - 一、转换算子（Transformation）
    - 二、行动算子（Action）
    - 三、键值对算子（PairRDDFunctions）
    - 四、文件系统算子（File System）

Spark 内置算子是指 Spark 提供的具有高性能、高效率和高可靠性的数据操作函数。Spark 内置算子可以帮助我们完成大量的数据预处理、处理和分析任务。其主要包括以下 4 类算子：

转换算子（Transformation）：用于将一个 RDD 转换为另一个 RDD，常见的有 map、flatMap、filter 等。

行动算子（Action）：用于对 RDD 执行计算，常见的有 reduce、collect、count 等。

键值对算子（PairRDDFunctions）：用于处理 K-V 形式的 RDD，常见的有 reduceByKey、groupByKey、sortByKey 等。

文件系统算子（File System）：用于进行文件系统的操作，常见的有 textFile、saveAsTextFile、wholeTextFiles 等。

下面简单介绍一下这些内置算子的详细用法：

一、转换算子（Transformation）

map(func): 将原 RDD 中的每个元素传递给函数 func，得到一个新的 RDD。

flatMap(func): 与 map 类似，但每个元素都可以生成多个输出，这些输出被平铺（flattening）成一个新的 RDD。

filter(func): 返回输入 RDD 中通过函数 func 的筛选结果为 true 的元素。

distinct([numTasks])): 返回输入 RDD 中所有不同的元素，可选参数 numTasks 指定任务的数量。

union(otherRDD): 返回对输入 RDD 和参数 RDD 执行联合操作的结果，生成一个新的 RDD，不去重。

intersection(otherRDD)): 返回对输入 RDD 和参数 RDD 执行交集操作的结果，生成一个新的 RDD。

subtract(otherRDD): 返回对输入 RDD 和参数 RDD 执行差集操作的结果，生成一个新的 RDD。

cartesian(otherRDD): 返回对输入 RDD 和参数 RDD 执行笛卡尔积的结果，生成一个新的 RDD。

二、行动算子（Action）

reduce(func): 使用函数 func 组合 RDD 中的所有元素，返回计算结果。

collect(): 将 RDD 中的所有元素都返回给驱动程序程序。

count(): 返回 RDD 中元素的数量。

first(): 返回 RDD 的第一个元素。

take(n): 返回 RDD 的前 n 个元素。

takeSample(withReplacement, num, [seed]): 从 RDD 中随机取样 num 个元素，withReplacement 指定是否允许取样后返回的元素有重复，seed 指定随机数种子。

takeOrdered(n, [ordering]): 返回包含 RDD 前 n 个元素的列表，元素是按顺序排序的。

aggregate(zeroValue, seqOp, combOp): 使用给定的函数对 RDD 的元素进行聚合，seqOp 计算在分区中初始值到中间结果的聚合计算，而 combOp 在节点上对中间结果进行聚合。

fold(zeroValue, func): 与 aggregate 类似，但这里的 seqOp 和 combOp 相同。

foreach(func): 对 RDD 中的每个元素执行指定的函数。

三、键值对算子（PairRDDFunctions）

reduceByKey(func, [numTasks]): 按键值对中的键将数据聚合在一起，并使用给定的函数进行聚合。

groupByKey([numTasks]): 按键值对中的键将数据分组，并生成一个迭代器，该迭代器包含与每个唯一键关联的所有元素。

mapValues(func): 对键值对的值应用给定的函数。

flatMapValues(func): 对键值对的值应用给定的函数，并生成一个迭代器，该迭代器包含每个键的所有结果。

keys(): 返回键值对 RDD 中所有键的列表。

values(): 返回键值对 RDD 中所有值的列表。

sortByKey([ascending], [numTasks]): 对键值对 RDD 中的键进行排序，ascending 指定是否按升序排序，numTasks 指定任务数量。

四、文件系统算子（File System）

textFile(path, [minPartitions]): 读取一个文件或文件系统中的所有文件，并返回表示它们的 RDD。

wholeTextFiles(path, [minPartitions]): 读取一个文件或文件系统中的所有文件，返回两项组成的元组，第一项是文件名，第二项是文件中的内容。

saveAsTextFile(path): 将 RDD 的内容写入一个文本文件。

saveAsSequenceFile(path): 将 RDD 的内容作为 Hadoop SequenceFile 保存。

saveAsObjectFile(path): 将 RDD 的内容序列化成字节并保存到文件中。

查看全文

http://www.lryc.cn/news/33177.html

Unity Avatar Cover System - 如何实现一个Avatar角色的智能掩体系统

steam/csgo搬砖项目到底真的假的？

【Python笔记20230307】

SBOM应该是软件供应链中的安全主食

[计算机组成原理(唐朔飞第2版)]第一章计算机系统概论第二章计算机的发展及应用（学习复习笔记）

Python的数据分析相关的框架

为什么会出现植物神经紊乱总是检查不出来该怎么办

宏任务和微任务

使用WebSocket、SockJS、STOMP实现消息实时通讯功能

C++回顾（十一）—— 动态类型识别和抽象类

雷电模拟器安卓7以上+Charles抓包APP最新教程

vsvode 配置sftp，连接远程linux全过程

C++类转换为蓝图、打印日志、蓝图关卡、删除C++文件

elasticsearch高级篇：核心概念和实现原理

部署安装Nginx服务实例

云原生架构设计原则及典型技术

【Linux】-- 工具介绍 vim_gcc/g++_gdb

2023年全国最新食品安全管理员精选真题及答案14

【MySQL】约束

C语言学习(三）

TOUGH系列软件建模及在地下水、CO2地质封存、水文地球化学、地热等多相多组分系统多过程耦合

k8s学习之路 | k8s 工作负载 ReplicaSet

python实现半色调技术图像转换

c++面试技巧-基础篇

三八妇女节即将到来，跨境电商如何玩转节日营销？