当前位置：首页 > news >正文

Spark中使用RDD算子GroupBy做词频统计的方法

news 2025/8/26 21:43:48

测试文件及环境

测试文件在本地D://tmp/spark.txt，Spark采用Local模式运行，Spark版本3.2.0，Scala版本2.12，集成idea开发环境。

hello
world
java
world
java
java

实验代码

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object GroupBy {def main(args: Array[String]): Unit = {// 创建Spark执行环境val sparkConf: SparkConf =new SparkConf().setMaster("local").setAppName("GroupBy")// 新建会话val sc = new SparkContext(sparkConf)// 读取本地文件到RDDval rdd: RDD[String] = sc.textFile("D://tmp/spark.txt")// 对rdd做map映射,返回(hello,1)...val rdd2: RDD[(String, Int)] = rdd.map(v => {val arr: Array[String] = v.split("\t")(arr(0), 1)})// 打印map映射结果rdd2.foreach(v=>println(v))// 对rdd2进行groupBy操作val rdd3: RDD[(String, Iterable[(String, Int)])] = rdd2.groupBy(v => v._1)// 遍历打印最终结果rdd3.map(v => (v._1, v._2.size)).foreach(v => println(v))//结束Spark会话sc.stop()}
}

实验结果

打印map映射结果

(hello,1)
(world,1)
(java,1)
(world,1)
(java,1)
(java,1)

(hello,1)
(java,3)
(world,2)

查看全文

http://www.lryc.cn/news/113939.html

Syncfusion Essential Edit for WPF Crack

机器学习深度学习——卷积神经网络（LeNet）

Pytorch Tutorial【Chapter 2. Autograd】

Python第三方库国内镜像下载地址

从浏览器输入url到页面加载（七）服务端机器一般部署在哪里

Pytorch深度学习-----神经网络之Sequential的详细使用及实战详解

安全基础 --- https详解 + 数组（js）

vue加载大量数据优化

WebRTC 之音视频同步

kubernetes基于helm部署gitlab-runner

深度学习和OpenCV的对象检测(MobileNet SSD图像识别)

Gitlab CI/CD笔记-第一天-GitOps和以前的和jenkins的集成的区别

有关OpenBSD, NetBSD, FreeBSD -- 与GPT对话

RabbitMQ 备份交换机和死信交换机

Linux 中利用设备树学习Ⅳ

使用Spring Initializr方式构建Spring Boot项目

Sentinel 2.0 微服务零信任的探索与实践

Oracle以逗号分隔的字符串拆分为多行数据实例详解

harbor仓库安装部署（1.6.1）

FastAPI 构建 API 高性能的 web 框架（一）

Spring框架中的Bean的生命周期

vue3-ts-vite：vue 项目配置多页面应用

docker部署jenkins且jenkins中使用docker去部署项目

无锚框原理 TOOD：Task-aligned One-stage Object Detection

配置Picgo图床之COS、OSS、Github图床

【LangChain】Prompts之自定义提示模板

测试文件及环境

实验代码

实验结果

相关文章：