当前位置: 首页 > news >正文

Spark中使用RDD算子GroupBy做词频统计的方法

测试文件及环境

测试文件在本地D://tmp/spark.txt,Spark采用Local模式运行,Spark版本3.2.0,Scala版本2.12,集成idea开发环境。

hello
world
java
world
java
java

实验代码

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}object GroupBy {def main(args: Array[String]): Unit = {// 创建Spark执行环境val sparkConf: SparkConf =new SparkConf().setMaster("local").setAppName("GroupBy")// 新建会话val sc = new SparkContext(sparkConf)// 读取本地文件到RDDval rdd: RDD[String] = sc.textFile("D://tmp/spark.txt")// 对rdd做map映射,返回(hello,1)...val rdd2: RDD[(String, Int)] = rdd.map(v => {val arr: Array[String] = v.split("\t")(arr(0), 1)})// 打印map映射结果rdd2.foreach(v=>println(v))// 对rdd2进行groupBy操作val rdd3: RDD[(String, Iterable[(String, Int)])] = rdd2.groupBy(v => v._1)// 遍历打印最终结果rdd3.map(v => (v._1, v._2.size)).foreach(v => println(v))//结束Spark会话sc.stop()}
}

实验结果

打印map映射结果

(hello,1)
(world,1)
(java,1)
(world,1)
(java,1)
(java,1)
(hello,1)
(java,3)
(world,2)
http://www.lryc.cn/news/113939.html

相关文章:

  • 如何使用Kafka构建事件驱动的架构
  • ES6 解构赋值
  • HTML5注册页面
  • python中的JSON模块详解
  • Syncfusion Essential Edit for WPF Crack
  • 机器学习深度学习——卷积神经网络(LeNet)
  • Pytorch Tutorial【Chapter 2. Autograd】
  • Python第三方库国内镜像下载地址
  • 从浏览器输入url到页面加载(七)服务端机器一般部署在哪里
  • Pytorch深度学习-----神经网络之Sequential的详细使用及实战详解
  • 安全基础 --- https详解 + 数组(js)
  • vue加载大量数据优化
  • WebRTC 之音视频同步
  • kubernetes基于helm部署gitlab-runner
  • 深度学习和OpenCV的对象检测(MobileNet SSD图像识别)
  • Gitlab CI/CD笔记-第一天-GitOps和以前的和jenkins的集成的区别
  • 有关OpenBSD, NetBSD, FreeBSD -- 与GPT对话
  • RabbitMQ 备份交换机和死信交换机
  • Linux 中利用设备树学习Ⅳ
  • 使用Spring Initializr方式构建Spring Boot项目
  • Sentinel 2.0 微服务零信任的探索与实践
  • Oracle以逗号分隔的字符串拆分为多行数据实例详解
  • harbor仓库安装部署(1.6.1)
  • FastAPI 构建 API 高性能的 web 框架(一)
  • Spring框架中的Bean的生命周期
  • vue3-ts-vite:vue 项目 配置 多页面应用
  • docker部署jenkins且jenkins中使用docker去部署项目
  • 无锚框原理 TOOD:Task-aligned One-stage Object Detection
  • 配置Picgo图床之COS、OSS、Github图床
  • 【LangChain】Prompts之自定义提示模板