当前位置: 首页 > news >正文

Linux虚拟机环境搭建spark

Linux环境搭建Spark分为两个版本,分别是Scala版本和Python版本。

一、 安装Pyspark

本环境以 Python 环境为例。

1、下载spark

下载网址:https://archive.apache.org/dist/spark

下载安装包:根据自己环境选择合适版本,本环境以spark3.0版本为案例。

  1.  根据hadoop版本下载下载 spark-3.0.0-bin-hadoop2.7.tgz  spark-3.0.0-bin-hadoop3.2.tgz  
  2.  如果不依赖hadoop,则下载 spark-3.0.0-bin-without-hadoop.tgz 
  3. 只安装pyspark下载pyspark-3.0.0.tar.gz   

    个人推荐带有hadoop版本 如 spark-3.0.0-bin-hadoop3.2.tgz ,将来可以使用hadoop,也可以使用python环境。

2、上传spark安装包到目录

3、解压spark安装包并重命名

      重命名主要是为了便于配置环境变量

4、配置环境变量

   vi .bash_profile

5、使环境生效

   source .bash_profile

   echo $SPARK_HOME

6、执行pyspark测试

       输入pyspark启动后查看版本,同时可以输入 from pyspark.sql import SparkSession 不报错则安装成功。

      注意:如果输入pyspark启动后需要安装python,则需要进行安装python,见https://blog.csdn.net/qq_41946216/article/details/137068755?spm=1001.2014.3001.5501

修改文件spark-env.sh、works
cp spark-env.sh.template spark-env.sh
cp workers.template workers

vi spark-env.sh
export JAVA_HOME=/usr/local/java
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.241.101
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

http://www.lryc.cn/news/328852.html

相关文章:

  • STL的string容器
  • 半导体工艺技术
  • acwing算法提高之图论--单源最短路的扩展应用
  • SQLServer数据库使用Function实现根据字段内容的拼音首字母进行数据查询
  • Linux——信号概念与信号产生方式
  • 赋值语句还能当判断条件?涨芝士了!
  • 数据结构 - 算法效率|时间复杂度|空间复杂度
  • 接口自动化之 + Jenkins + Allure报告生成 + 企微消息通知推送
  • 『Apisix安全篇』探索Apache APISIX身份认证插件:从基础到实战
  • 【01-20】计算机网络基础知识(非常详细)从零基础入门到精通,看完这一篇就够了
  • 『大模型笔记』常见的分布式并行策略(分布式训练)
  • java 企业工程管理系统软件源码+Spring Cloud + Spring Boot +二次开发+ 可定制化
  • 3D数据格式导出工具HOOPS Publish如何生成高质量3D PDF?
  • 【springboot】闲话 springboot 的几种异步机制 及 长轮询的概念和简单实现
  • Mysql---安全值守常用语句
  • containerd快速安装指南
  • Javascript - 正则表达式相关的一些基础的范例
  • JUC:线程活跃性(死锁、活锁、饥饿)
  • RGB到灰度图像的转换原理及例程
  • PCA+DBO+DBSCN聚类,蜣螂优化算法DBO优化DBSCN聚类,适合学习,也适合发paper!
  • 创建数据库与表单以及管理表单和数据
  • Milvus+ATTU环境搭建
  • Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之八 简单水彩画效果
  • Chrome浏览器 安装Vue插件vue-devtools
  • 相册清理大师-手机重复照片整理、垃圾清理软件
  • 【GitLab】Ubuntu 22.04 快速安装 GitLab
  • Linux重点思考(下)--shell脚本使用以及内核开发
  • 2024世界技能大赛某省选拔赛“网络安全项目”B模块--应急响应解析
  • 苹果与百度合作,将在iPhone 16中使用生成式AI
  • java中的单例模式