当前位置：首页 > news >正文

阶段三：项目开发---大数据开发运行环境搭建:任务4：安装配置Spark集群

news 2025/7/31 23:37:59

任务描述

知识点：安装配置Spark

重点：安装配置Spark

难点：无

内容：

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

本任务主要内容是安装配置Spark，并搭建Spark HA高可用架构。

任务指导

安装Spark集群主要包括以下步骤：

1、下载Spark安装包，在各节点中安装部署spark集群

2、配置整合

3、启动并测试

注：Spark的运行方式分为三种，这里使用在工作中最常用的方式 Spark on YARN，将Spark托管到YARN上运行

任务实现

1. 下载Spark

可以从官方网站下载合适的版本。当前环境已经提供了安装包，存放在 /opt/software目录下。

2. 在node1节点上安装Spark

解压安装Spark

[root@node1 ~]# cd /opt/software/
[root@node1 software]# tar -xzf spark.tar.gz -C /opt/module/

配置Spark环境变量，修改系统配置文件/etc/profile。

输入【# vim /etc/profile】命令，编辑/etc/profile文件，增加如下内容：

export SPARK_HOME=/opt/module/spark/
export PATH=$PATH:$SPARK_HOME/bin

使用【source /etc/profile】命令使配置文件生效

[root@node1 software]# source /etc/profile

进入/opt/module/spark/conf 配置文件夹

[root@node1 software]# cd $SPARK_HOME/conf

配置spark-env.sh文件，配置过程如下：

使用【cp】命令，从spark-env.sh.template模板文件复制并创建spark-env.sh文件

[root@node1 conf]# cp spark-env.sh.template spark-env.sh

然后使用【 vim spark-env.sh】命令编辑该文件

[root@node1 conf]# vim spark-env.sh

添加如下内容：

export JAVA_HOME=/opt/module/jdk1.8.0_301
export HADOOP_CONF_DIR=/opt/module/hadoop/etc/hadoop

3. 将node1节点上的Spark分别都拷贝到node2、node3节点上

将配置好的Spark复制到其他节点对应位置上，通过scp命令发送。

[root@node1 conf]# scp -rq /opt/module/spark node2:/opt/module/
[root@node1 conf]# scp -rq /opt/module/spark node3:/opt/module/

将配置好的环境变量/etc/profile复制到其他节点对应位置上，通过scp命令发送。

[root@node1 conf]# scp -rq /etc/profile node2:/etc/
[root@node1 conf]# scp -rq /etc/profile node3:/etc/

4. Spark配置的常见问题

Spark相关命令比较灵活，这里使用【 spark-shell --master yarn】进行测试，代码指定将Spark托管到YARN上
由于YARN调度机制的问题，Spark的资源无法被正确申请，所以需要修改Hadoop中的yarn-site.xml
进入node1的Hadoop配置目录

[root@node1 ~]# cd $HADOOP_HOME/etc/hadoop

使用【vim】命令修改yarn-site.xml文件

[root@node1 hadoop]# vim yarn-site.xml

在yarn-site.xml文件的<configuration>标签内，添加如下配置

<property>
<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

修改完成后将更新的yarn-site.xml文件分发至node2、node3的Hadoop配置文件目录中

[root@node1 hadoop]# scp yarn-site.xml node2:/opt/module/hadoop/etc/hadoop/
[root@node1 hadoop]# scp yarn-site.xml node3:/opt/module/hadoop/etc/hadoop/

在node1节点上，重启YARN集群

[root@node1 hadoop]# stop-yarn.sh
[root@node1 hadoop]# start-yarn.sh

5. 测试Spark

在node1节点上，首先上传一个文件至HDFS目录

[root@node1 ~]# cd $HADOOP_HOME/
[root@node1 hadoop]# hdfs dfs -put README.txt /

进入Spark Shell

[root@node1 hadoop]# spark-shell --master yarn

在Spark客户端执行如下代码，实现对HDFS上的 README.txt 文件的内容进行词频统计（即，统计每个单词在文档中出现的总次数），并将统计的结果保存到HDFS上的 /result目录下。

scala> sc.textFile("hdfs://node1:9000/README.txt").flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey((a,b) => a+b).saveAsTextFile("hdfs://node1:9000/result")

输入【:quit】退出 Spark Shell

scala> :quit

观察HDFS的/result目录中的数据，如果可以查看到词频统计的结果，则说明集群运行正常

[root@node1 hadoop]# hadoop fs -ls /result
[root@node1 hadoop]# hadoop fs -cat /result/part*

查看全文

http://www.lryc.cn/news/395963.html

SDIO CMD 数据部分 CRC 计算规则

每日一编程，早点拿offer

https创建证书

C++ 是否变得比 C 更流行了？

Redis-Jedis连接池\RedisTemplate\StringRedisTemplate

Obsidian 文档编辑器

Spring Boot项目中JPA操作视图会改变原表吗？

C++之goto陈述

ChatGPT提问提示指南PDF下载经典分享推荐书籍

架构设计（2）云原生架构与实例部署

《UDS协议从入门到精通》系列——图解0x84：安全数据传输

AFT：Attention Free Transformer论文笔记

Linux grep技巧结合awk查询

关于Qt模型插入最后一行数据中存在未填满的项，点击导致崩溃的解决办法

Interpretability 与 Explainability 机器学习

Vue3项目如何使用npm link本地测试组件库

后端之路——阿里云OSS云存储

大模型/NLP/算法面试题总结2——transformer流程//多头//clip//对比学习//对比学习损失函数

【atcoder】习题——位元枚举

世界人工智能大会 | 江行智能大模型解决方案入选“AI赋能新型工业化创新应用优秀案例”

css浮动及清除浮动副作用的三种解决方法

图像类别生成数字标签

【Python】已解决：SyntaxError: invalid character in identifier

RDNet实战：使用RDNet实现图像分类任务（一）

Java小白入门到实战应用教程-介绍篇

python脚本“文档”撰写——“诱骗”ai撰写“火火的动态”python“自动”脚本文档

若依 / ruoyi-ui：执行yarn dev 报错 esnext.set.difference.v2.js in ./src/utils/index.js

移动端Vant-list的二次封装，查询参数重置

SMU Summer 2024 Contest Round 2

Qt：11.输入类控件(QLineEdit-单行文本输入控件、QTextEdit-多行文本输入控件、QComboBox-下拉列表的控件)