当前位置: 首页 > news >正文

使用 spark-submit 运行依赖第三方库的 Python 文件

python文件在spark集群运行真的麻烦,烦冗

spark运行分为了三个模式,本地模式/client模式/cluster模式

文章目录

  • 本地模式
  • client模式
  • cluster模式
  • 参考

本地模式

现在的spark支持python3了,支持python2的版本已经很落后了,所以需要使用python3来弄,本地模式只要可以运行python xx.py,spark-submit就可以

spark-submit \
local [*] \
--conf spark.pyspark.python=/usr/bin/python3 \
--conf spark.pyspark.driver.python=/usr/bin/python3 \
xx.py

/usr/bin/python3 替换为本地python解释器绝对路径就行。

xx.py 所依赖的库什么的,直接就在本地装就可以了,如果是不联网机器,可以在有网络的环境里,把依赖的库下载好,再传到不联网机器安装就行。就是一个pip downloadpip install的操作。

client模式

client模式和cluster模式比较麻烦了,需要把所依赖的python环境上传,不推荐--py-files,太麻烦了,得弄多少zip包,用--archives这个参数就行,上传python环境,推荐用conda创建环境,然后再用conda打包就行。

就是考察对anaconda命令得熟悉。

conda create -y -n pyspark_conda_env -c conda-forge pyarrow pandas conda-pack
conda activate pyspark_conda_env
conda pack -f -o pyspark_conda_env.tar.gz

还需要把 pyspark_conda_env.tar.gz 给上传到hdfs上面。

hdfs dfs -put pyspark_conda_env.tar.gz /user/hadoop/data/

还有一点,需要把xx.py也上传

hdfs dfs -put xx.py /user/hadoop/data/

上传完了,需要在本地解压pyspark_conda_env.tar.gz,命令参数有用。

最后spark-submit如下

spark-submit \
--master yarn \
--deploy-mode client \
--archives 本地路径/pyspark_conda_env.tar.gz#environment
--conf spark.pyspark.python=./environment/bin/python \
--conf spark.pyspark.driver.python=本地解压路径/pyspark_conda_env/bin/python \
hdfs://user/hadoop/data/xx.py

其中要注意的是 #environment 的写法就可以把前面一长串给代表了,下面就可以用#后面的字符来代表了

--archives 本地路径/pyspark_conda_env.tar.gz#environment

cluster模式

只要跑通了client模式,cluster就简单多了,不用在本地解压pyspark_conda_env.tar.gz这个包了,就直接用了。

spark-submit \
--master yarn \
--deploy-mode cluster \
--archives 本地路径/pyspark_conda_env.tar.gz#environment
--conf spark.pyspark.python=./environment/bin/python \
hdfs://user/hadoop/data/xx.py

参考

在PySpark程序中使用Conda打包Python环境及第三方库
官网教程

http://www.lryc.cn/news/574667.html

相关文章:

  • RGB相机 vs 灰度相机
  • Apache Flink Kafka 写连接器源码深度剖析
  • java-SpringBoot框架开发计算器网页端编程练习项目【web版】
  • Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights
  • DataSophon 1.2.1集成Flink 1.20并增加JMX 监控
  • pyqt setContentsMargins
  • 网络安全攻防:2025年新型钓鱼攻击防御指南
  • 零基础搭建Spring AI本地开发环境指南
  • LT8311EX一款适用于笔记本电脑,扩展坞的usb2.0高速运转芯片,成对使用,延伸长度达120米
  • 202564读书笔记|《土耳其:换个地方躺平(轻游记)》——旅行的时候,绮丽多姿的真实世界向我打开
  • Python核心库Pandas详解:数据处理与分析利器
  • 【Java开发日记】我们详细地讲解一下 Java 异常及要如何处理
  • Springboot项目中使用手机号短信验证码注册登录实现
  • Vue项目使用defer优化页面白屏,性能优化提升,秒加载!!!
  • 【服务器】教程 — Linux上如何挂载服务器NAS
  • 帮助装修公司拓展客户资源的微信装修小程序怎么做?
  • STM32 环境监测与控制系统的设计与实现
  • Vue3+el-table-v2虚拟表格大数据量多选功能详细教程
  • STM32[笔记]--4.嵌入式硬件基础
  • 攻防世界-MISC-MeowMeowMeow
  • Unity小工具:资源引用的检索和替换
  • 深入研究:小红书笔记详情API接口详解
  • Linux环境下MariaDB如何实现负载均衡
  • 一文了解AI Agent的幕后基础设施
  • 记一次 Kafka 磁盘被写满的排查经历
  • 采用ArcGIS10.8.2 进行插值图绘制
  • macOS - 快速上手使用 YOLO
  • MySQL之SQL性能优化策略
  • 信创建设,如何统一管理异构服务器的认证、密码、权限管理等?
  • React性能优化精髓之一:频繁setState导致滚动卡顿的解决方案