当前位置: 首页 > news >正文

PySpark开发环境搭建常见问题及解决

PySpark环境搭建常见问题及解决

    • 1、winutils.exe问题
    • 2、SparkURL问题
    • 3、set_ugi()问题



本文主要收录PySpark开发环境搭建时常见的一些问题及解决方案,并收集一些相关资源

1、winutils.exe问题


在这里插入图片描述

报错摘要:

WARN Shell: Did not find winutils.exe: {}
java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.
......

原因1:缺少Hadoop的Windows支持环境:hadoop.dllwinutils.exe

详见官网:https://cwiki.apache.org/confluence/display/hadoop/WindowsProblems

原因2:已经下载hadoop.dllwinutils.exe,并配置了环境变量,但未将hadoop.dllwinutils.exe可不用)文件拷贝到C:\Windows\System32目录中(重启电脑才能生效)

解决:下载Hadoop的Windows支持环境:hadoop.dllwinutils.exe,配置环境变量,并将hadoop.dll文件拷贝到C:\Windows\System32目录中,重启电脑

PShadoop.dllwinutils.exe各版本下载链接见文末附录

2、SparkURL问题


在这里插入图片描述

报错摘要:

To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/12/05 14:50:09 ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: Invalid Spark URL: spark://HeartbeatReceiver@***
......

原因:主机名带了下划线_或点.导致

解决:

方式1:添加配置:spark.driver.host=localhost

方式2:修改本机hosts文件:添加主机名与IP映射:

主机名 127.0.0.1

然后添加配置:spark.driver.bindAddress=127.0.0.1

Spark属性配置官方文档:https://spark.apache.org/docs/3.1.2/configuration.html

3、set_ugi()问题


在这里插入图片描述

报错摘要:

23/12/05 15:13:10 WARN NativeIO: NativeIO.getStat error (3): ϵͳ�Ҳ���ָ����·����-- file path: tmp/hive
23/12/05 15:13:21 WARN ProcfsMetricsGetter: Exception when trying to compute pagesize, as a result reporting of ProcessTree metrics is stopped
23/12/05 15:13:22 WARN metastore: set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it.
org.apache.thrift.transport.TTransportException
......

可能原因:权限问题

解决:首先配置屏蔽:spark.executor.processTreeMetrics.enabled=false,然后尝试如下方式:

方式1:修改hdfs-site.xml

# 在集群服务器的hdfs-site.xml文件中添加跳过权限验证
# 注意修改配置前先停止集群,配置结束之后,重启集群即可。经测试只需要修改NameNode上的配置文件即可
<property><name>dfs.permissions.enabled</name><value>false</value>
</property>

方式2:修改hive-site.xml

# 新客户端与旧服务器通信,hive-site.xml与服务器不同步
# 在hive-site.xml中添加以下内容:
<property><name>hive.metastore.event.db.notification.api.auth</name><value>false</value>
</property>

================== 附录资源 ==================


hadoop.dll和winutils.exe各版本下载:https://github.com/cdarlint/winutils/tree/master/hadoop-3.1.2

Hadoop各版本下载:https://archive.apache.org/dist/hadoop/common/

Spark各版本下载:http://archive.apache.org/dist/spark/


http://www.lryc.cn/news/253874.html

相关文章:

  • supervisor管理启动重启,Java,Go程序Demo
  • HarmonyOs 4 (三) ArkTS语言
  • PostGIS学习教程九:空间连接
  • C++ day56 两个字符串的删除操作 编辑距离
  • Android studio中如何生成jar包?
  • 【2】基于多设计模式下的同步异步日志系统-设计模式
  • 第十五届蓝桥杯模拟赛B组(第二期)C++
  • 企业ERP软件定制开发要注意|app小程序搭建
  • 系统架构设计-权限模块的设计
  • IDEA切换Python虚拟环境
  • 《opencv实用探索·十一》opencv之Prewitt算子边缘检测,Roberts算子边缘检测和Sobel算子边缘检测
  • prime靶机打靶记录
  • 树莓派,linux换清华源
  • 公有云迁移研究——AWS DMS
  • 一起学docker系列之十七Docker Compose 与手动操作的比较与优势分析
  • IP地址定位不准确的情况研究
  • 武汉凯迪正大KDZD5289硫化曲线测试仪(电脑无转子硫化仪)
  • Topic和Partition
  • 算法通关村第十四关|黄金挑战|数据流的中位数
  • 挑选数据可视化工具:图表类型、交互功能与数据安全
  • 华纳云:有效解决服务器宕机的办法
  • 坦克大战-部分
  • OracleRac跨网段修改Public IP/VIP/Private IP/Scan IP
  • 使用Pytorch从零开始实现BERT
  • Python爬虫-新能源汽车销量榜
  • 外包干了8个月,技术退步明显.......
  • <JavaEE> volatile关键字 -- 保证内存可见性、禁止指令重排序
  • docker安装mysql8
  • 消息丢失排查方法?
  • Linux 匿名页反向映射