当前位置: 首页 > news >正文

spark第一章:环境安装

系列文章目录

spark第一章:环境安装


文章目录

  • 系列文章目录
  • 前言
  • 一、文件准备
    • 1.文件上传
    • 2.文件解压
    • 3.修改配置
    • 4.启动环境
  • 二、历史服务器
    • 1.修改配置
    • 2.启动历史服务器
  • 总结


前言

spark在大数据环境的重要程度就不必细说了,直接开始吧。


一、文件准备

1.文件上传

spark3.2.3官网下载地址。
在这里插入图片描述
本次学习spark使用稳定版3.2.3.
spark一般有3种部署模式。
Local一般用于测试。
Standalone用于学习
Yarn生产环境常用部署。
我们直接模拟生产环境。

2.文件解压

tar -xvf spark-3.3.2-bin-hadoop3.tgz -C /opt/module/
cd /opt/module/
mv spark-3.3.2-bin-hadoop3/ spark-yarn

3.修改配置

spark是基于hadoop允许的,所以我们要修改hadoop的配置文件。

vim /opt/module/hadoop-3.2.3/etc/hadoop/yarn-site.xml
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是 true -->
<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property><!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是 true -->
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>

将这个文件分发到集群

xsync hadoop-3.2.3/etc/hadoop/

修改spark的conf文件
在这里插入图片描述

mv spark-env.sh.template spark-env.sh

在最后边追加两行内容

export JAVA_HOME=/opt/module/jdk8u282-b08
YARN_CONF_DIR=/opt/module/hadoop-3.2.3/etc/hadoop

在这里插入图片描述

4.启动环境

先启动hadoop
在这里插入图片描述
提交spark任务。

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster ./examples/jars/spark-examples_2.12-3.3.2.jar 10

在浏览器查看结果
hadoop103:8088
在这里插入图片描述

二、历史服务器

1.修改配置

在这里插入图片描述

mv spark-defaults.conf.template spark-defaults.conf

在文件后边追加。

spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop102:8020/directory

在集群上创建需要的目录

 hadoop fs -mkdir /directory

修改spark-env.sh
在后边追加如下内容

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory 
-Dspark.history.retainedApplications=30"

修改 spark-defaults.conf
继续追加

spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

2.启动历史服务器

sbin/start-history-server.sh

再次提交应用

bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples/jars/spark-examples_2.12-3.3.2.jar 10

在这里插入图片描述
继续在hadoop103上查看结果。
在这里插入图片描述
最后边点击history
在这里插入图片描述
自动跳转到历史服务器。
在这里插入图片描述


总结

spark第一章的环境搭建就到这里,现在可以将3个虚拟机保存快照。

http://www.lryc.cn/news/20883.html

相关文章:

  • MySQL---存储过程与存储函数的相关概念
  • PMP值得考吗?
  • Quartus 报错汇总(持续更新...)
  • Netty权威指南总结(一)
  • Elasticsearch:如何轻松安全地对实时 Elasticsearch 索引重新索引你的数据
  • 【算法笔记】前缀和与差分
  • python实战应用讲解-【实战应用篇】函数式编程-八皇后问题(附示例代码)
  • 【Servlet篇】如何解决Request请求中文乱码的问题?
  • SpringBoot:SpringBoot简介与快速入门(1)
  • RabbitMQ学习(十一):RabbitMQ 集群
  • 学渣适用版——Transformer理论和代码以及注意力机制attention的学习
  • 网上这么多IT的培训机构,我们该怎么选?
  • 数据结构与算法—跳表(skiplist)
  • 【C++】5.C/C++内存管理
  • 一文让你彻底理解关于消息队列的使用
  • 条件期望3
  • 第四届蓝桥杯省赛 C++ B组 - 翻硬币
  • linux shell 入门学习笔记14 shell脚本+数学计算
  • ESP32设备驱动-MAX30100心率监测传感器驱动
  • RTD2169芯片停产|完美替代RTD2169芯片|CS5260低BOM成本替代RTD2169方案设计
  • urho3d数据库
  • 141. 周期
  • Windows下命令执行绕过技巧总结(渗透测试专用)
  • mindspore的MLP模型(多层感知机)
  • 【论文极速读】VQ-VAE:一种稀疏表征学习方法
  • Flask-Blueprint
  • png图片转eps格式
  • English Learning - L2 语音作业打卡 Day2 2023.2.23 周四
  • 低频量化之 可转债 配债 策略数据 - 全网独家
  • 论文阅读_DALLE-2的unCLIP模型