当前位置: 首页 > news >正文

Spark算子

一、编写spark程序的准备工作(程序入口 SparkContext)

1.创建SparkConf

val conf = new SparkConf().setMaster("local[2]").setAppName("hello-app")

2.创建sparkContext

val sc: SparkContext = new SparkContext(conf)

二、基于sparkContext创建RDD 

简略的说, RDD 有三种创建方式

  1. RDD 可以通过本地集合直接创建
  2. RDD 也可以通过读取外部数据集来创建
  3. RDD 也可以通过其它的 RDD 衍生而来

通过本地集合直接创建 RDD

val list = List(1, 2, 3, 4, 5, 6)
val rddParallelize = sc.parallelize(list, 2)
val rddMake = sc.makeRDD(list, 2)

通过读取外部文件创建 RDD 

val source1: RDD[String] = sc.textFile("hdfs://node01:8020/dataset/wordcount.txt")
val source2: RDD[String] = sc.textFile("/data/input/wordcount.txt")

通过其它的 RDD 衍生新的 RDD

val source: RDD[String] = sc.textFile("hdfs://node01:8020/dataset/wordcount.txt", 20)
val words = source.flatMap { line => line.split(" ") }

 三、RDD算子的使用

RDD 中的算子从功能上分为两大类(Transformation和Action)

  1. Transformation(转换) 它会在一个已经存在的 RDD 上创建一个新的 RDD, 将旧的 RDD 的数据转换为另外一种形式后放入新的 RDD。
  2. Action(动作) 执行各个分区的计算任务, 将的到的结果返回到 Driver 中。

 spark 常用的 Transformation 算子如下表:

Spark 常用的 Action 算子如下:

http://www.lryc.cn/news/228306.html

相关文章:

  • Containerd接入Harbor仓库
  • Angular 组件介绍及使用(一)
  • 2023.11.13 hive数据仓库之分区表与分桶表操作,与复杂类型的运用
  • Spring Cloud学习(七)【Docker 容器】
  • 好题分享(2023.11.5——2023.11.11)
  • 第二章 03Java基础-IDEA相关叙述
  • 第三阶段第二章——Python高阶技巧
  • 【Git】Git分支与应用分支Git标签与应用标签
  • 本地PHP搭建简单Imagewheel私人云图床,在外远程访问——“cpolar内网穿透”
  • HCIP---OSPF思维导图
  • Python实现猎人猎物优化算法(HPO)优化XGBoost回归模型(XGBRegressor算法)项目实战
  • pandas读写json的知识点
  • 图论——Dijkstra算法matlab代码
  • [MySQL] MySQL表的基础操作
  • SQL 部分解释。
  • 利用LangChain实现RAG
  • 零基础学习Matlab,适合入门级新手,了解Matlab
  • CCF ChinaSoft 2023 论坛巡礼 | 自动驾驶仿真测试论坛
  • vue封装useWatch hook支持停止监听和重启监听功能
  • 智能配方颗粒管理系统解决方案,专业实现中医药产业数字化-亿发
  • PXI总线测试模块-6951E 信号分析仪
  • 精确杂草控制植物检测模型的改进推广
  • C++:对象成员方法的使用
  • 深入了解SpringMvc接收数据
  • 华东“启明”青少年音乐艺术实践中心揭幕暨中国“启明”巴洛克合奏团首演音乐会
  • 17. 机器学习——SVM
  • 算法导论笔记5:贪心算法
  • Vue的高级表格组件库【vxe-table】
  • 从0到0.01入门React | 002.精选 React 面试题
  • 假冒 Skype 应用程序网络钓鱼分析