当前位置: 首页 > news >正文

Spark SQL大数据分析快速上手-完全分布模式安装

【图书介绍】《Spark SQL大数据分析快速上手》-CSDN博客

《Spark SQL大数据分析快速上手》【摘要 书评 试读】- 京东图书

大数据与数据分析_夏天又到了的博客-CSDN博客

Hadoop完全分布式环境搭建步骤-CSDN博客,前置环境安装参看此博文

完全分布模式也叫集群模式。将Spark目录文件分发到其他主机并配置workers节点,即可快速配置Spark集群(需要先安装好JDK并配置好从Master到Worker的SSH信任)。具体步骤   如下:

【免费送书活动】《Spark SQL大数据分析快速上手》-CSDN博客

 步骤1: 配置计划表。

                 集群主机配置如表2-1所示。所有主机在相同目录下安装JDK,Spark安装到所有主机的相同目录下,如/app/。

 步骤2: 准备3台Linux虚拟机搭建集群环境。

                 这里推荐直接使用下面链接讲解的、配置好的Hadoop完全分布式环境,稍微做些修改,即可快速搭建Spark完全分布模式环境。

Hadoop完全分布式环境搭建步骤_hadoop 开发环境搭建及hdfs初体验-CSDN博客

 步骤3: 解压并配置Spark。

                 在server101上解压Spark:

$ tar -zxvf ~/spark-3.3.1-bin-hadoop3.tgz -C /app/$ mv spark-3.3.1-bin-hadoop3 spark-3.3.1

                 修改spark-env.sh文件,在文件最开始添加JAVA_HOME环境变量:

$ vim /app/spark-3.3.1/sbin/spark-conf.shexport JAVA_HOME=/usr/java/jdk1.8.0-361

                 修改worker文件,添加所有主机在worker节点上的名称:

$ vim /app/spark-3.3.1/conf/workersserver101server102server103

                 使用scp将Spark目录分发到所有主机相同的目录下:

$ scp -r /app/spark-3.3.1  server102:/app/$ scp -r /app/spark-3.3.1  server103:/app/
 步骤4: 启动Spark。

                 在主Spark上执行start-all.sh:

$ /app/spark-3.3.1/sbin/start-all.sh

                 启动完成以后,查看master主机的8080端口,如图2-8所示。

 步骤5: 测试。

                 由于已经配置了Hadoop集群,并且与Spark的worker节点在相同的主机上,因此在集群环境下,一般是访问HDFS上的文件:

$spark-shell --master spark://server101:7077scala> val rdd1 = sc.textFile(“hdfs://server101:8082/test/a.txt”);

图2-8  master主机的8080端口

                 将结果保存到HDFS,最后查看HDFS上的计算结果即可:

scala> rdd1.flatMap(_.split("\\s+")).map((_,1)).reduceByKey(_+_). saveAsTextFile("hdfs://server101:8020/out004");

http://www.lryc.cn/news/488556.html

相关文章:

  • Java面试题2024-Java基础
  • 局域网协同办公软件,2024安全的协同办公软件推荐
  • osg、osgearth简介及学习环境准备
  • nodejs基于微信小程序的云校园的设计与实现
  • uni-app快速入门(十)--常用内置组件(下)
  • golang基础
  • Selenium + 数据驱动测试:从入门到实战!
  • LLaMA与ChatGLM选用比较
  • GPTZero:高效识别AI生成文本,保障学术诚信与内容原创性
  • C/C++ 优化,strlen 示例
  • 【动手学深度学习Pytorch】1. 线性回归代码
  • 深入理解PyTorch中的卷积层:工作原理、参数解析与实际应用示例
  • DataGear 5.2.0 发布,数据可视化分析平台
  • uniapp: vite配置rollup-plugin-visualizer进行小程序依赖可视化分析减少vender.js大小
  • 深度学习:如何复现神经网络
  • Spring Boot与MyBatis-Plus的高效集成
  • 【Unity ShaderGraph实现流体效果之Function入门】
  • Spark RDD sortBy算子执行时进行数据 “采样”是什么意思?
  • React-useRef与DOM操作
  • Mistral AI 发布 Pixtral Large 模型:多模态时代的开源先锋
  • Windows、Linux多系统共享蓝牙设备
  • C语言 | Leetcode C语言题解之第564题寻找最近的回文数
  • wsl虚拟机中的dockers容器访问不了物理主机
  • Spark RDD 的宽依赖和窄依赖
  • 二进制转十进制
  • 深度学习:神经网络中的非线性激活的使用
  • Python缓存:两个简单的方法
  • 原生微信小程序在顶部胶囊左侧水平设置自定义导航兼容各种手机模型
  • 经验笔记:远端仓库和本地仓库之间的连接(以Gitee为例)
  • 利用RAGflow和LM Studio建立食品法规问答系统