当前位置: 首页 > article >正文

第五:Spark启动!

一.什么是Spark

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。

是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发的通用内存并行计算框架Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务;阿里利用GraphX构建了大规模的图计算和图挖掘系统,实现了很多生产系统的推荐算法;腾讯Spark集群达到8000台的规模,是当前已知的世界上最大的Spark集群。

二. Spark的特点 

运行速度快

易于使用

通用性强

适用环境广

1.速度快

由于Apache Spark支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍,在硬盘中要快10倍。Spark使用最先进的DAG调度器、查询优化器和物理执行引擎,实现了高性能的批处理和流处理。

 

2.易于使用

可以使用Java,Scala,Python,R,SQL快速写一个Spark应用。

Spark提供了超过80中操作使它更容易生成平行化的应用。它也可以使用Scala,Python,R,SQL shell 进行交互操作。

 

3.通用性强

Spark 可以与 SQL 、 Streaming 及复杂的分析良好结合。 Spark 还有一系列的高级工具,包括 Spark SQL 、 MLlib (机器学习库)、 GraphX (图计算)和 Spark Streaming (流计算),并且支持在一个应用中同时使用这些组件。
Spark提供了Core、SQL、Streaming、MLlib、GraphX等技术组件,可以一站式地完成大数据领域的离线批处理、SQL交互式查询、流式实时计算,机器学习、图计算等常见的任务。

 

4.适用环境广

Spark支持多种运行方式,包括在Hadoop和Mesos上,也支持Standalone的独立运行模式,同时也可以运行在云Kuberbetes上。对于数据源而言,Spark支持从HDFS、HBase、Cassandra及Kafka等多种途径获取数据。

 

ps:Spark的最大特点:基于内存

二.Spark集群的三种部署模式
Spark有主要有三种部署模式:Spark独立服务器模式、基于YARN的Spark、基于Mesos的Spark

(1)Standalone模式

即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖其它任何资源管理系统。从一定程度上讲是其它两种模式的基础。借助Spark开发模式,我们可以得到一种开发新型计算框架的一般思路。

Standalone模式运行流程

(2)yarn集群模式

在集群模式下,driver在集群中的某个节点(一般是应用程序的主节点)上运行。客户端首先与资源管理器通信,请求资源并运行Spark作业。资源管理器会分配容器(0号容器)并响应客户端。然后客户端向集群提交代码,并在0号容器内启动driver和Spark应用主节点。driver与Spark应用主节点协同工作,然后在由资源管理器分配的容器上创建executor。
YARN容器可位于由节管理器控制的任何容器上。因此所有的资源分配都由资源管理器负责。
Spark应用主节点与资源管理器进行沟通,以获取其他容器来启动executor。
在YARN集群模式下,没有shell,因为driver本身在YARN内部。

yarn-cluster运行流程

(3)yarn客户端模式

在YARN客户端模式下,driver在集群之外的节点(一般都是客户端节点)上运行。driver首先需要与资源管理器通信,从而请求资源并运行Spark作业。资源管理器会分配容器(0号容器)并响应driver。driver在0号容器中启动Spark应用主节点。Spark应用主节点在资源管理器分配的容器中创建executor。YARN容器可位于集群中由节点管理器控制的任一节点,因此所有的资源分配都由资源管理器负责。Spark应用主节点与资源管理器进行沟通,以获取其他容器来启动executor

yarn-client运行流程

yarn-cluster和yarn-client区别:

(1&#

http://www.lryc.cn/news/2415029.html

相关文章:

  • 达梦|人大金仓|神舟通用|南大通用 国产单机数据库硬核评测-第一期
  • Jenkins|安装部署全流程
  • 服务器linux操作系统重装的完整流程-傻瓜式教学
  • CSS 5 ,深入理解 CSS 选择器:全面指南
  • 【【IDE】Visual Studio Code 保姆级入门教程(二)——用C++完成基本的单文件程序的创建、调试与运行】
  • nexus 入门学习
  • Markdown(编辑器)工具与使用总结Markdown语法图文全面详解
  • ①flutter简介和环境构建①
  • 宝塔的安装教程
  • 万字长文解析Bootstrap权威教程:从入门到精通逐步掌握前端开发框架
  • 图巨多,手把手教学Android-Studio超详细安装过程
  • 什么是base64
  • 扫雷——完整版!!!!!!
  • JSON数据生成器教程
  • IDEA最详细配置让开发效率起飞,这还不赶紧收藏?,赶紧收藏
  • 房内事对白经典!!!!
  • VSCode 安装流程与基础操作(图文版)
  • 开心网不开心:用户,该怎样让你留下来?
  • 程序员面试时候出的一些逻辑问题
  • ESET NOD32最新单机、企业中、英文版 + 个人专有ID(90天使用期)申请方法
  • CNGI高校驻地网IPv6用户数量排名
  • Java设置cookie原理
  • R语言检索网址汇总
  • 复习第20天(File对象)
  • MSVCP71.DLL msvcr71.dll丢失 64位
  • 已解决socket.timeout : The read operation timed out
  • 摄像机主要指标及参数
  • PHP极简网盘系统源码
  • ueditor使用指南
  • 腾讯云mysql默认支持双主备吗_最大支持1主15备模式,腾讯云张青林详解CynosDB四大核心性能...