当前位置：首页 > news >正文

全国职业院校技能大赛（大数据赛项）-平台搭建Spark、Scala笔记

news 2025/7/21 15:20:55

Spark作为一个开源的分布式计算框架拥有高效的数据处理能力、丰富的生态系统、多语言支持以及广泛的行业应用。Scala是一种静态类型的编程语言，它结合了面向对象编程和函数式编程的特性，被誉为通用的“大数据语言”。而二者的结合更能迸发出新奇的化学反应，由于Spark和Scala都是用相同的JVM语言编写的，使得它们之间的互操作性非常高。而且Scala的表达能力使得编写Spark应用程序的代码更简洁。二者不仅在实际业务中广泛应用，在全国职业院校技能大赛中更是有两大模块都需要这两个的知识，其中就包括今天要给大家分享的Spark、Scala的环境搭建知识，话不多说，走起！！

在搭建之前大家要先保证自己虚拟机中已经有JDK，而且Hadoop环境运行起来了，小编今天使用的是CentOS 7系统，软件对应23年国赛的版本，Spark为3.1.1，Scala为2.12.11

一、解压两个包到/opt/module下

tar -zxvf /opt/software/spark-3.1.1-bin-hadoop3.2.tgz -C /opt/module/
tar -zxvf /opt/software/scala-2.12.11.tgz -C /opt/module/

tar: 这是命令的主体，代表要使用的工具是tar。
-zxvf: 这是tar命令的选项，可以拆分为四个部分来理解：
- -z: 这个选项告诉tar命令归档文件是通过gzip压缩的。这意味着tar在解包之前需要先解压缩gzip压缩的文件。
- -x: 表示要执行的是解压操作（extract），即从归档文件中提取文件。
- -v: 表示在解包过程中显示详细的过程信息（verbose），即会显示正在被解压的文件名等信息。
- -f: 这个选项后面紧跟着的是要处理的归档文件的名称。它告诉tar命令接下来要指定的参数是归档文件的名称，而不是其他选项或参数。

二、更改名称（这步可省略）

mv spark-3.1.1-bin-hadoop3.2 spark
mv scala-2.12.11 scala

mv：代表“move”的缩写，用于移动文件或目录，或者重命名文件或目录。

三、配置环境变量

vim /etc/profile

在文件中写入

export	SPARK_HOME=/opt/module/spark
export	SCALA_HOME=/opt/module/scala
export	PATH=$PATH:$SPARK_HOME/bin:$SCALA_HOME/bin
export	PATH=$PATH:$SPARK_HOME/sbin

四、配置文件的配置

首先进入到spark/conf目录下，随后复制spark的默认配置文件，我们后续的更改都在这个副本中

cd /opt/module/spark/conf/
cp spark-env.sh.template spark-env.sh

在spark-env.sh文件中添加：

export	SCALA_HOME=你的Scala地址
export	JAVA_HOME=你的JDK地址
export	SPARK_MASTER_IP=你的主机IP
export	SPARK_WORKER_MEMORY=1g
export	HADOOP_CONF_DIR=/opt/module/hadoop/etc/hadoop
export	SPARK_MASTER_HOST=你的主机IP
export	SPARK_MASTER_PORT=7077
export	SPARK_WORKER_HOST=你的主机IP
export	SPARK_WORKER_PORT=7078

然后我们复制conf目录下的workers.template文件，workers.template文件是一个模板文件，用于配置Spark集群中的工作节点，我们一般是将其复制为workers文件进行配置系列工作节点的主机名或IP地址，每行一个。这些工作节点是Spark集群中用于执行任务的物理或虚拟机器。在集群启动时，主节点会读取workers文件并根据文件中列出的工作节点来启动和管理它们。

cp workers.template workers
vim workers你的主机IP
你的从机IP
你的从机IP

五、关联Spark和Hive，分发文件和环境变量

将hive中conf下面的hive-site.xml传输到spark的conf下（如果你想直接使用spark-sql操作Hive的话）Spark在访问Hive表时，需要知道Hive元数据的存储位置，以便能够正确地读取和写入Hive表。通过将hive-site.xml文件放置在Spark的conf目录下，Spark可以读取这个文件中的配置信息，从而定位到Hive的元数据仓库。

cp /opt/module/hive/conf/hive-site.xml /opt/module/spark/conf/

然后我们将Spark、Scala的文件和环境变量分发到另外两台机器中（注意下面的主机名改成自己的）

scp -r /opt/module/spark root@slave1:/opt/module/
scp -r /opt/module/spark root@slave2:/opt/module/
scp -r /opt/module/scala root@slave1:/opt/module/
scp -r /opt/module/scala root@slave2:/opt/module/
scp -r /etc/profile root@slave1:/etc/
scp -r /etc/profile root@slave2:/etc/

随后我们生效环境变量（注意三台都要生效）