当前位置：首页 > news >正文

Spark on Yarn安装配置,大数据技能竞赛（容器环境）

news 2025/7/24 5:03:31

Spark on Yarn模式，即把Spark作为一个客户端，将作业提交给Yarn服务，由于在生产环境中，很多时候都要与Hadoop使用同一个集群，因此采用Yarn来管理资源调度，可以有效提高资源利用率。

环境说明：

服务端登录地址详见各任务服务端说明。
补充说明：宿主机可通过Asbru工具或SSH客户端进行SSH访问；
相关软件安装包在宿主机的/opt目录下，请选择对应的安装包进行安装，用不到的可忽略；
所有任务中应用命令必须采用绝对路径；
进入Master节点的方式为
docker exec -it master /bin/bash
进入Slave1节点的方式为
docker exec -it slave1 /bin/bash
进入Slave2节点的方式为
docker exec -it slave2 /bin/bash
三个容器节点的root密码均为123456

提前准备好spark-3.1.1-bin-hadoop3.2.tgz 放在宿主机的/opt/下（模拟的自己准备，比赛时会提供）

Hadoop 完全分布式安装配置

环境搭建请看这篇文章大数据模块A环境搭建

前提条件已经在容器里搭建完hadoop了,没搭建的请看这篇Hadoop 完全分布式安装配置

Spark on Yarn安装配置

本任务需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体要求如下：

1、从宿主机/opt目录下将文件spark-3.1.1-bin-hadoop3.2.tgz复制到容器Master中的/opt/software（若路径不存在，则需新建）中，将Spark包解压到/opt/module路径中(若路径不存在，则需新建)，将完整解压命令复制粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下；

第一步：从宿主机/opt目录下将文件spark-3.1.1-bin-hadoop3.2.tgz复制到容器Master中的/opt/software（若路径不存在，则需新建）中

[root@Bigdata ~]# docker cp /opt/spark-3.1.1-bin-hadoop3.2.tgz master:/opt/software

第二步：将Spark包解压到/opt/module路径中(若路径不存在，则需新建)

[root@master ~]# tar zxvf /opt/software/spark-3.1.1-bin-hadoop3.2.tgz -C /opt/module/
[root@master ~]# mv /opt/module/spark-3.1.1-bin-hadoop3.2 /opt/module/spark

2、修改容器中/etc/profile文件，设置Spark环境变量并使环境变量生效，在/opt目录下运行命令spark-submit --version，将命令与结果截图粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下；

第一步：修改容器中/etc/profile文件，设置Spark环境变量

#SPARK_HOME
export SPARK_HOME=/opt/module/spark
export PATH=$PATH:$SPARK_HOME/binc

第二步：使环境变量生效

[root@master ~]# source /etc/profile

第三步：在/opt目录下运行命令spark-submit --version

[root@master ~]# cd /opt/
[root@master opt]# spark-submit --version
Welcome to____              __/ __/__  ___ _____/ /___\ \/ _ \/ _ `/ __/  '_//___/ .__/\_,_/_/ /_/\_\   version 3.1.1/_/Using Scala version 2.12.10, Java HotSpot(TM) 64-Bit Server VM, 1.8.0_212
Branch HEAD
Compiled by user ubuntu on 2021-02-22T01:33:19Z
Revision 1d550c4e90275ab418b9161925049239227f3dc9
Url https://github.com/apache/spark
Type --help for more information.
[root@master opt]#

3、完成on yarn相关配置，使用spark on yarn 的模式提交$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar 运行的主类为org.apache.spark.examples.SparkPi，将运行结果截图粘贴至客户端桌面【Release\任务A提交结果.docx】中对应的任务序号下（截取Pi结果的前后各5行）。

（运行命令为：spark-submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar）

第一步：完成on yarn相关配置

修改hadoop配置文件/opt/module/hadoop/etc/hadoop/yarn-site.xml

<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

发到其他节点（slave1，slave2）

[root@master ~]# scp /opt/module/hadoop/etc/hadoop/yarn-site.xml slave1:/opt/module/hadoop/etc/hadoop/yarn-site.xml 
[root@master ~]# scp /opt/module/hadoop/etc/hadoop/yarn-site.xml slave2:/opt/module/hadoop/etc/hadoop/yarn-site.xml

复制一份spark-env.sh

[root@master ~]# cp /opt/module/spark/conf/spark-env.sh.template /opt/module/spark/conf/spark-env.sh

修改/opt/module/spark/conf/spark-env.sh，添加JAVA_HOME、YARN_CONF_DIR和HADOOP_CONF_DIR配置

[root@master ~]# vi /opt/module/spark/conf/spark-env.sh

export JAVA_HOME=/opt/module/java
export YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop
export HADOOP_CONF_DIR=/opt/module/hadoop/etc/hadoop

启动Hadoop集群

start-all.sh

确保 /user/root/ 和 /user/root/.sparkStaging/ 目录有足够的权限。

hdfs dfs -chmod -R 777 /user/root

第二步：使用spark on yarn 的模式提交$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar 运行的主类为org.apache.spark.examples.SparkPi

spark-submit --master yarn --class org.apache.spark.examples.SparkPi  $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar

截取Pi结果的前后各5行

声明：此文章为个人学习笔记，如文章有问题欢迎留言探讨，也希望您的指正！

查看全文

http://www.lryc.cn/news/500028.html

遣其欲，而心自静 -- 33DAI

No.25 笔记 | 信息收集与Google语法的实践应用

GitLab基础环境部署：Ubuntu 22.04.5系统在线安装GitLab 17.5.2实操手册

SpringBoot3配置文件

【机器学习】任务十二：循环神经网络

【返璞归真】-切比雪夫不等式（Chebyshev‘s Inequality）

【Django】在view中调用channel来主动进行websocket通信

18.[极客大挑战 2019]BabySQL1

Python快速入门二：Python3 基础语法

1-1 C语言链表

[0629].第29节：配置中心业务规则与动态刷新

mac: docker : Command not found解决

Django drf基于APIView 快速使用

【MarsCode】每日一题数组之数字分组求偶数和

解决：error: subprocess-exited-with-error 的问题

使用腾讯混元(HunYuanVideo)视频模型FP8量化版本来生成绅士动画,模型体积30G,8G甜品卡可玩,2秒视频需要15分钟

使用Ancona安装node，安装vue

如何“安装Android SDK“？

天童教育：提升孩子的语言表达能力

Node.js中JWT的token完整生命周期管理：从生成到销毁

Kotlin报错：lateinit property xxx has not been initialized

debian编译失败

flink-connector-mysql-cdc：03 mysql-cdc常见问题汇总

JSP技术发展现状

浏览器同源策略、跨域、跨域请求，服务器处理没、跨域解决方案

flink-connector-mysql-cdc：02 mysql-cdc高级扩展

Couchbase 简介

我们来学mysql -- 事务并发之幻读(原理篇)

Ubuntu Linux 图形界面工具管理磁盘分区和文件系统(八)

Eclipse IDE 各个版本的用途和区别

Hadoop 完全分布式安装配置

Spark on Yarn安装配置

相关文章：