当前位置：首页 > news >正文

Spark on Yarn安装配置

news 2025/8/27 21:56:57

前言

初了解spark

Standalone模式

Yarn模式

前言

今天我们讲解Spark的安装配置，spark的部署分为两种，一种是Standalone模式，另一种就是on yarn 模式，我们这一节着重讲解on yarn 模式，因为符合生产活动，但也会提到Standalone模式

初了解spark

Spark是一个快速、通用、可扩展的集群计算引擎，它基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高伸缩性。Spark允许用户将其部署在大量廉价的硬件之上，形成集群。Spark诞生于2009年，最初由美国加州大学伯克利分校的AMP实验室开发，是一个基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。

Spark的特点主要体现在以下几个方面：

Spark的主要组件包括SparkCore，它将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。

总的来说，Spark作为一个强大而灵活的大数据处理工具，以处理各种类型的大数据任务和应用场景。

快速：Spark基于内存的运算速度比Hadoop的MapReduce快100倍，即使基于硬盘的运算也要快10倍以上。这得益于Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。
通用：Spark的设计容纳了其它分布式系统拥有的功能，包括批处理（类似Hadoop）、迭代式计算（机器学习）、交互查询（类似Hive）和流处理（类似Storm）等，这降低了维护成本。
易用性：Spark提供了Python、Java、Scala、SQL的API和丰富的内置库，使其与其他的大数据工具整合得很好，包括Hadoop、Kafka等。此外，Spark还支持超过80种高级算法，使用户可以快速构建不同的应用。

Standalone模式

Standalone模式是Spark自带的资源调动引擎，构建一个由Master + Slave构成的Spark集群，Spark运行在集群中。

这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群，不需要借助其他的框架。是相对于Yarn和Mesos来说的。

解压：

tar -zxvf spark-3.0.3-bin-hadoop3.2.tgz -C /opt/module/

修改名字：

mv spark-3.0.3-bin-hadoop3.2/ spark-standalone

配置集群节点：

mv slaves.template slaves
vim slaves

添加内容：

bigdata1
bigdata2
bigdata3

修改spark-env.sh文件，添加bigdata1节点

mv spark-env.sh.template spark-env.sh
vim spark-env.sh

添加内容：

SPARK_MASTER_HOST=bigdata1
SPARK_MASTER_PORT=7077

向其他机器分发spark-standalone包

在其他机器创建spark-standalone目录。

scp -r /opt/module/spark-standalone/ bigdata2:/opt/module/spark-standalone/
scp -r /opt/module/spark-standalone/ bigdata3:/opt/module/spark-standalone/

启动spark集群官方求PI案例

bin/spark-submit \
> --class org.apache.spark.examples.SparkPi \
> --master spark://bigdata1:7077 \
> ./examples/jars/spark-examples_2.12-3.0.3.jar \
> 10

结果：
Pi is roughly 3.1408591408591406

------------------------------ 命令 ---------------------------------------
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://bigdata1:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
./examples/jars/spark-examples_2.12-3.0.3.jar \
10

Yarn模式

saprk客户端连接Yarn，不需要额外构建集群。

解压：

tar -zxvf spark-3.0.3-bin-hadoop3.2.tgz -C /opt/module/

配置环境变量：

#SPARK_HOME
export SPARK_HOME=/opt/module/spark-3.0.3-yarn
export PATH=$PATH:$SPARK_HOME/bin

修改配置文件：

修改hadoop配置文件/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml，添加如下内容：

<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property>

<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>

分发配置文件：

scp -r /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml bigdata2:/opt/module/hadoop-3.1.3/etc/hadoop/

scp -r /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml bigdata3:/opt/module/hadoop-3.1.3/etc/hadoop/

修改spark-env.sh

mv spark-env.sh.template spark-env.sh
vim spark-env.sh

内容：

YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

重启Hadoop

start-all.sh
start-yarn.sh

求PI

spark-submit --master yarn --class org.apache.spark.examples.SparkPi  $SPARK_HOME/examples/jars/spark-examples_2.12-3.0.3.jar

结果：
Pi is roughly 3.142211142211142

查看全文

http://www.lryc.cn/news/321482.html

Debezium日常分享系列之：Debezium 2.5.3.Final发布

elment-ui el-tabs组件每次点击后 created方法都会执行2次

sheng的学习笔记-AI-Network in Network（NIN）和1*1卷积

【靶机测试--PHOTOGRAPHER: 1【php提权】】

LeetCode每日一题——删除有序数组中的重复项

元宇宙VR数字化艺术展降低办展成本

聚类分析 | Matlab实现基于PCA+DBO+K-means的数据聚类可视化

使用 git 先提交后拉取的时候远程分支不允许问题

Unity 创建快捷方式开机自动启动

什么是docker（docker客户端、镜像、容器、仓库）

[Python人工智能] 四十三.命名实体识别 (4)利用bert4keras构建Bert+BiLSTM-CRF实体识别模型

Android Framework开发之Linux +Vim命令

MySQL 索引的10 个核心要点

MaixSense-A010 接入 ROS

使用WordPress在US Domain Center上建立招聘网站的详细教程

C++:类和对象（上篇）

氧化铝电容的工艺结构原理及选型参数总结

野火ESP8266模块开发-基于Arduino IDE

[Qt学习笔记]Qt实现自定义控件SwitchButton开关按钮

【工具】mac 环境配置

【前端寻宝之路】学习和总结HTML的标签属性

kafka2.x版本配置SSL进行加密和身份验证

Linux和Windows下的文件批量重命名

stm32之GPIO电路介绍

Unity Toggle处理状态变化事件

UE5.1 iClone8 正确导入角色骨骼与动作

FFmpeg-- c++实现：pcm和yuv编码

图解CodeWhisperer的安装使用

Python内置对象

开源数据集 nuScenes 之 3D Occupancy Prediction

前言

初了解spark

Standalone模式

Yarn模式

相关文章：