Apache Spark 基础知识总结及应用示例
目录
1、Spark编程模型
1.1 术语定义
1.2 模型组成
1.2.1 Driver部分
1.2.2 Executor部分
1.2.2.1 原生数据
1.2.2.2 RDD
1.2.2.3 共享变量
1.2.3 内部逻辑概念
1.2.3.1 job
1.2.3.2 stage
1.2.3.3 task
2、RDD
2.1 术语定义
2.2 RDD概念
2.2.1 RDD的特点
2.2.2 RDD基础数据类型
2.2.3 例子:控制台日志挖掘
2.3 转换与操作
2.3.1 转换
2.3.2 操作
2.4 依赖类型
2.5 RDD缓存
3、RDD, DF, DS的关系和区别
1)RDD
优点
缺点
2)DataFrame
3)DataSet
三者之间的联系和区别
4 、Spark Streaming介绍
4.1Flink和Saprk的对比
4.2对于 Inner-Join 而言,加水印是可选的, Outer-Join 是必须的
5、RDD动手实战
5.1 上传测试数据
5.2 转换与操作
5.2.1 并行化集合例子演示
5.2.2 Shuffle操作例子演示
5.2.3 搜狗日志查询例子演示
6、学习总结
1、Spark编程模型
1.1 术语定义
应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;
驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program;
执行单元(Executor): 是为某Application运行在Worker Node上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上,每个Application都有各自独立的Executors;
集群管理程序(Cluster Manager): 在集群上获取资源的外部服务(例如:Standalone、Mesos或Yarn);