当前位置：首页 > article >正文

Apache Spark 基础知识总结及应用示例

article 2025/8/16 19:45:06

1、Spark编程模型

1.1 术语定义

1.2 模型组成

1.2.1 Driver部分

1.2.2 Executor部分

1.2.2.1 原生数据

1.2.2.2 RDD

1.2.2.3 共享变量

1.2.3 内部逻辑概念

1.2.3.1 job

1.2.3.2 stage

1.2.3.3 task

2、RDD

2.1 术语定义

2.2 RDD概念

2.2.1 RDD的特点

2.2.2 RDD基础数据类型

2.2.3 例子：控制台日志挖掘

2.3 转换与操作

2.3.1 转换

2.3.2 操作

2.4 依赖类型

2.5 RDD缓存

3、RDD, DF, DS的关系和区别

1）RDD

优点

缺点

2）DataFrame

3）DataSet

三者之间的联系和区别

4 、Spark Streaming介绍

4.1Flink和Saprk的对比

4.2对于 Inner-Join 而言，加水印是可选的， Outer-Join 是必须的

5、RDD动手实战

5.1 上传测试数据

5.2 转换与操作

5.2.1 并行化集合例子演示

5.2.2 Shuffle操作例子演示

5.2.3 搜狗日志查询例子演示

6、学习总结

1、Spark编程模型

1.1 术语定义

应用程序（Application）：基于Spark的用户程序，包含了一个Driver Program 和集群中多个的Executor；

驱动程序（Driver Program）：运行Application的main()函数并且创建SparkContext，通常用SparkContext代表Driver Program；

执行单元（Executor）：是为某Application运行在Worker Node上的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上，每个Application都有各自独立的Executors；

集群管理程序（Cluster Manager）：在集群上获取资源的外部服务(例如：Standalone、Mesos或Yarn)；

查看全文

http://www.lryc.cn/news/2420439.html

pthread_cancel手册翻译

微信小程序开发中的数据分析与统计

出身比你好的人，比你聪明，还比你努力

Oracle数据库链Database links（dblinks）使用方法

多普达S900 使用详细说明(使用技巧大全)

家中常用药

ADUM1201和川土微电子的CA-IS3722HS数字隔离器参数对比

不喜欢stormliv.exe的最简单解决办法

冷风机的安装

SEO按天计费系统源码聚合SEO关键词按天自动扣费 | Thinkphp框架

3d工口医Android,3d口工医完整版

Windows10系统安装软件时显示“无法访问Windows Installer服务。Windows Installer没有正确安装时可能发生这种情况。” or “错误2：系统找不到指定的文件”

乌班图服务器系统升级,Ubuntu 13.04升级至Ubuntu 13.10（服务器版）教程

ARM烧录笔记

java7723魂斗罗2_魂斗罗3代-完全版

课程设计-基于Springboot+Vue的大学生社团活动平台的设计与实现（源码+LW+包运行）

springboot房屋租赁系统-计算机毕业设计源码74728

【Unity Shader入门精要第3章】Unity Shader基础

卡巴斯基kis6换许可文件key教程（转）

基于Matlab的碎纸片的自动拼接复原技术

电脑变慢怎么让电脑变快，教你从软硬件两方面搞定

智源：70万预算从头开发千亿参数大模型，挑战成功

《黑马程序员》 category分类的使用(Objective - c语法)

黑马程序员-JAVASE入门（其他对象）

Windows 11家庭版中 VMware 中开启虚拟机的虚拟化引擎（开启虚拟化 IntelVT-x/EPT或AMD-V/RVI(V)）

1、Spark编程模型

1.1 术语定义

相关文章：