当前位置: 首页 > article >正文

Apache Spark 基础知识总结及应用示例

目录

1、Spark编程模型

1.1 术语定义

1.2 模型组成

1.2.1 Driver部分

1.2.2 Executor部分

1.2.2.1 原生数据

1.2.2.2 RDD

1.2.2.3 共享变量

1.2.3 内部逻辑概念 

1.2.3.1 job

1.2.3.2 stage

1.2.3.3 task

2、RDD

2.1 术语定义

2.2 RDD概念

2.2.1 RDD的特点

2.2.2 RDD基础数据类型

2.2.3 例子:控制台日志挖掘

2.3 转换与操作

2.3.1 转换

2.3.2 操作

2.4 依赖类型

2.5 RDD缓存

3、RDD, DF, DS的关系和区别

1)RDD

优点

缺点

2)DataFrame

3)DataSet

三者之间的联系和区别

4 、Spark Streaming介绍

4.1Flink和Saprk的对比

4.2对于 Inner-Join 而言,加水印是可选的, Outer-Join 是必须的

5、RDD动手实战

5.1 上传测试数据

5.2 转换与操作

5.2.1 并行化集合例子演示

5.2.2 Shuffle操作例子演示

5.2.3 搜狗日志查询例子演示

6、学习总结


1、Spark编程模型

1.1 术语定义

应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;

驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program;

执行单元(Executor): 是为某Application运行在Worker Node上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上,每个Application都有各自独立的Executors;

集群管理程序(Cluster Manager): 在集群上获取资源的外部服务(例如:Standalone、Mesos或Yarn);

http://www.lryc.cn/news/2420439.html

相关文章:

  • pthread_cancel手册翻译
  • 微信小程序开发中的数据分析与统计
  • 出身比你好的人,比你聪明,还比你努力
  • Oracle数据库链Database links(dblinks)使用方法
  • Qt 防止程序多次运行
  • 器件选型篇:二极管之肖特基选型
  • 龙生九子 联想06年超越新机官方多图赏上篇
  • 无线震动传感器
  • 亚马逊云aws12个月免费服务器搭建小结
  • 多普达S900 使用详细说明(使用技巧大全)
  • 家中常用药
  • ADUM1201和川土微电子的CA-IS3722HS数字隔离器参数对比
  • 不喜欢stormliv.exe的最简单解决办法
  • 冷风机的安装
  • SEO按天计费系统源码 聚合SEO关键词按天自动扣费 | Thinkphp框架
  • 3d工口医Android,3d口工医完整版
  • Windows10系统安装软件时显示“无法访问Windows Installer服务。Windows Installer没有正确安装时可能发生这种情况。” or “错误2:系统找不到指定的文件”
  • 乌班图服务器系统升级,Ubuntu 13.04升级至Ubuntu 13.10(服务器版)教程
  • ARM烧录笔记
  • java7723魂斗罗2_魂斗罗3代-完全版
  • 课程设计-基于Springboot+Vue的大学生社团活动平台的设计与实现(源码+LW+包运行)
  • springboot房屋租赁系统-计算机毕业设计源码74728
  • 【Unity Shader入门精要 第3章】Unity Shader基础
  • 卡巴斯基kis6换许可文件key教程(转)
  • 基于Matlab的碎纸片的自动拼接复原技术
  • 电脑变慢怎么让电脑变快,教你从软硬件 两方面搞定
  • 智源:70万预算从头开发千亿参数大模型,挑战成功
  • 《黑马程序员》 category分类的使用(Objective - c语法)
  • 黑马程序员-JAVASE入门(其他对象)
  • Windows 11家庭版 中 VMware 中开启虚拟机的虚拟化引擎(开启虚拟化 IntelVT-x/EPT或AMD-V/RVI(V))