当前位置：首页 > news >正文

基于hadoop下的spark安装

news 2025/7/18 9:44:29

简介

安装准备

spark安装

配置文件配置

简介

Spark主要⽤于⼤数据的并⾏计算，⽽Hadoop在企业主要⽤于⼤数据的存储（⽐如HDFS、Hive和HBase 等），以及资源调度（Yarn）。但是也有很多公司也在使⽤MR2进⾏离线计算的开发。Spark + Hadoop在当前自建平台技术中，是离线计算任务开发的主流组合方式。
数据存储：HDFS
资源调度：Yarn
数据计算：Spark或MapReduce，取决于具体的企业需求场景

Spark提供了 Spark Core 、 Spark SQL 、 Spark Streaming 、 Spark MLlib 、 Spark GraphX 和Spark-R等技术组件，可以⼀站式地完成⼤数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算和统计等常⻅的任务。

Spark引进了弹性分布式数据集（Resilient DistributedDataset, RDD），它是分布在一组节点中的只读对象集合。这些对象集合是弹性的，如果丢失了一部分对象集合，Spark则可以根据父RDD对它们进行计算。另外在对RDD进行转换计算时，可以通过CheckPoint方法将数据持久化（比如可以持久化到HDFS），从而实现容错。

安装准备

linux免密登录

zookeeper安装

hadoop安装

spark安装

通过官网下载安装包 spark-3.5.0-bin-hadoop3.tgz,所有节点同步下载。

wget https://archive.apache.org/dist/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz

然后进行解压，清空压缩包，设置软连接。

 tar -zxf spark-3.5.0-bin-hadoop3.tgz 
rm -rf spark-3.5.0-bin-hadoop3.tgz 
ln -s spark-3.5.0-bin-hadoop3/ spark

配置文件配置

在$SPARK_HOME/conf 下，压缩包中自带一个标准格式文件，将其更名为spark-env.sh便可。

[hadoop@vm02 conf]$ cp spark-env.sh.template spark-env.sh
[hadoop@vm02 conf]$ ll
total 44
-rw-r--r-- 1 hadoop hadoop 1105 Sep  9 10:08 fairscheduler.xml.template
-rw-r--r-- 1 hadoop hadoop 3350 Sep  9 10:08 log4j2.properties.template
-rw-r--r-- 1 hadoop hadoop 9141 Sep  9 10:08 metrics.properties.template
-rw-r--r-- 1 hadoop hadoop 1292 Sep  9 10:08 spark-defaults.conf.template
-rwxr-xr-x 1 hadoop hadoop 4694 Dec 10 23:02 spark-env.sh
-rwxr-xr-x 1 hadoop hadoop 4694 Sep  9 10:08 spark-env.sh.template
-rw-r--r-- 1 hadoop hadoop  865 Sep  9 10:08 workers.template

本文使用简易配置作为演示，关于其他参数在配置文档中已经写明注释，可以根据实际情况进行阅读或选择性配置。本文在该文档下只设置主节点hostname，所有节点同步

export SPARK_MASTER_HOST=vm02
export JAVA_HOME=/jdk/jdk1.8.0_144/
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=${JAVA_HOME}/lib:${JRE_HOME}/lib
export ZOOKEEPER_HOME=/home/hadoop/zookeeper
#HADOOP_HOME
export HADOOP_HOME=/home/hadoop/hadoop
export HBASE_HOME=/home/hadoop/hbase

· 设置vm03,vm04为工作节点

[hadoop@vm02 conf]$ cp workers.template workers
[hadoop@vm02 conf]$ vim workers
vm03
vm04

配置spark环境变量

vim /etc/profile，将一下环境变量配置加入到文件中

export PATH=$SPARK_HOME/bin:$PATH
export SPARK_HOME=/home/hadoop/spark

重新加载环境变量

source /etc/profile

启动spark

##进入$SPARK_HOME/sbin 目录下启动spark
start-all.sh

注意：spark的启动指令的命令的名称和hadoop的启动名称是一样的，所以不要设置$SPARK_HOME/sbin 的PATH环境变量

启动完成后可以只看到，marster在vm02上，vm03,vm04都是work节点。

在所有节点均可以使用以下命令进入spark的交互端口，

 spark-shell --master local

只有当进入到交互命令行时，才可以访问对应节点的webui页面，默认端口是4040

使用ctrl+c便可以退出交互行

spark的安装也是相当方便。读者有什么疑问，可以私信咨询。

查看全文

http://www.lryc.cn/news/257233.html

面试经典150题(10-13)

Sql server数据库数据查询

前端开发tips

实现跨VLAN通信、以及RIP路由协议的配置

使用python绘制现有彩票记录走势图

Kubernetes实战(十)-升级k8s集群

点击el-tree小三角后去除点击后的高亮背景样式，el-tree样式修改

【电子取证篇】汽车取证数据提取与汽车取证实例浅析（附标准下载）

系列学习前端之第 3 章：一文精通 css

基于JavaWeb+SSM+Vue马拉松报名系统微信小程序的设计和实现

leetcode 255.用队列实现栈

排序算法---选择排序

物联网IC

2022年第十一届数学建模国际赛小美赛A题翼龙如何飞行解题全过程文档及程序

Blender学习--制作带骨骼动画的机器人

单片机学习13——串口通信

Unity 实现单例模式

【Android12】Android Framework系列--AMS启动Activity分析

Hive的几种排序方式、区别，使用场景

设计模式-外观模式

Kubernetes实战(九)-kubeadm安装k8s集群

【LeetCode】2723. 两个 Promise 对象相加

设计模式--命令模式的简单例子

排序算法之六：快速排序（非递归）

【概率方法】重要性采样

简介

安装准备

spark安装

配置文件配置

相关文章：