当前位置：首页 > news >正文

使用 spark-submit 运行依赖第三方库的 Python 文件

news 2025/8/29 15:48:51

python文件在spark集群运行真的麻烦，烦冗

spark运行分为了三个模式，本地模式/client模式/cluster模式

文章目录

本地模式
client模式
cluster模式
参考

本地模式

现在的spark支持python3了，支持python2的版本已经很落后了，所以需要使用python3来弄，本地模式只要可以运行python xx.py，spark-submit就可以

spark-submit \
local [*] \
--conf spark.pyspark.python=/usr/bin/python3 \
--conf spark.pyspark.driver.python=/usr/bin/python3 \
xx.py

/usr/bin/python3 替换为本地python解释器绝对路径就行。

xx.py 所依赖的库什么的，直接就在本地装就可以了，如果是不联网机器，可以在有网络的环境里，把依赖的库下载好，再传到不联网机器安装就行。就是一个pip download 和 pip install的操作。

client模式

client模式和cluster模式比较麻烦了，需要把所依赖的python环境上传，不推荐--py-files，太麻烦了，得弄多少zip包，用--archives这个参数就行，上传python环境，推荐用conda创建环境，然后再用conda打包就行。

就是考察对anaconda命令得熟悉。

conda create -y -n pyspark_conda_env -c conda-forge pyarrow pandas conda-pack
conda activate pyspark_conda_env
conda pack -f -o pyspark_conda_env.tar.gz

还需要把 pyspark_conda_env.tar.gz 给上传到hdfs上面。

hdfs dfs -put pyspark_conda_env.tar.gz /user/hadoop/data/

还有一点，需要把xx.py也上传

hdfs dfs -put xx.py /user/hadoop/data/

上传完了，需要在本地解压pyspark_conda_env.tar.gz，命令参数有用。

最后spark-submit如下

spark-submit \
--master yarn \
--deploy-mode client \
--archives 本地路径/pyspark_conda_env.tar.gz#environment
--conf spark.pyspark.python=./environment/bin/python \
--conf spark.pyspark.driver.python=本地解压路径/pyspark_conda_env/bin/python \
hdfs://user/hadoop/data/xx.py

其中要注意的是 #environment 的写法就可以把前面一长串给代表了，下面就可以用#后面的字符来代表了

--archives 本地路径/pyspark_conda_env.tar.gz#environment

cluster模式

只要跑通了client模式，cluster就简单多了，不用在本地解压pyspark_conda_env.tar.gz这个包了，就直接用了。

spark-submit \
--master yarn \
--deploy-mode cluster \
--archives 本地路径/pyspark_conda_env.tar.gz#environment
--conf spark.pyspark.python=./environment/bin/python \
hdfs://user/hadoop/data/xx.py