当前位置: 首页 > news >正文

python如何使用spark操作hive

文章目录

    • 1、服务启动
    • 2、修改配置
    • 3、验证
    • 4、开发环境编写代码操作hive


1、服务启动

# 启动hdfs和yarn
start-all.sh
# 日志服务也需要启动一下
mapred --daemon start historyserver
# 启动spark的日志服务
/opt/installs/spark/sbin/start-history-server.sh
#启动hive的metastore服务
h-server start metastore

2、修改配置

cd /opt/installs/spark/conf
# 新增:hive-site.xml
vi hive-site.xml
# 在这个文件中,编写如下配置:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration><property><name>hive.metastore.uris</name><value>thrift://bigdata01:9083</value></property>
</configuration># 接着将该文件进行分发:
xsync.sh hive-site.xml

xsync是一个自己编写的shell脚本,脚本编写详情链接:
大数据集群搭建以及使用过程中几个实用的shell脚本

3、验证

linux黑窗口进入spark:

/opt/installs/spark/bin/pyspark --master local[2]

进入后,通过内置对象spark,查询hive数据库或者表:

spark.sql("show databases").show()
spark.sql("select * from mydb01.student").show()

4、开发环境编写代码操作hive

其中环境需要修改成自己的路径:

import os
import refrom pyspark.sql import SparkSessionif __name__ == '__main__':# 配置环境os.environ['JAVA_HOME'] = 'D:/devs/javajdk/jdk8'# 配置Hadoop的路径,就是前面解压的那个路径os.environ['HADOOP_HOME'] = 'D:/learn_tools/hadoop-3.3.1'# 配置base环境Python解析器的路径os.environ['PYSPARK_PYTHON'] = 'D:/learn_apps/anaconda/python.exe'  # 配置base环境Python解析器的路径os.environ['PYSPARK_DRIVER_PYTHON'] = 'D:/learn_apps/anaconda/python.exe'os.environ['HADOOP_USER_NAME'] = 'root'spark = SparkSession \.builder \.appName("HiveAPP") \.master("local[2]") \.config("spark.sql.warehouse.dir", 'hdfs://node01:9820/user/hive/warehouse') \.config('hive.metastore.uris', 'thrift://node01:9083') \.config("spark.sql.shuffle.partitions", 2) \.enableHiveSupport() \.getOrCreate()# 查询所有数学课程成绩大于语文课程成绩的学生学号resultDf = spark.sql("""select * from mydb01.t1""")resultDf.show()spark.stop()
http://www.lryc.cn/news/490013.html

相关文章:

  • 观察者模式和订阅模式
  • 基于ToLua的C#和Lua内存共享方案保姆级教程
  • OpenCV与AI深度学习|16个含源码和数据集的计算机视觉实战项目(建议收藏!)
  • Vue 如何简单更快的对 TypeScript 中接口的理解?应用场景?
  • R语言绘图过程中遇到图例的图块中出现字符“a“的解决方法
  • 视图合并机制解析 | OceanBase查询优化
  • sql注入报错分享(mssql+mysql)
  • PHP 高并发解决方案
  • k8s1.30.0高可用集群部署
  • 多摩川编码器协议及单片机使用
  • Android 网络通信(三)OkHttp实现登入
  • 分享一下arr的意义(c基础)(必看)(牢记)
  • AGENT AI 综述核心速览
  • 基于Java Springboot房屋租赁系统
  • 力扣 LeetCode 701. 二叉搜索树中的插入操作(Day10:二叉树)
  • 猎板科技:PCB 特殊定制领域的卓越引领者
  • centos stream 9安装docker教程
  • 优化旧LabVIEW程序功能的方法
  • 关于安卓模拟器或手机设置了BurpSuite代理和安装证书后仍然抓取不到APP数据包的解决办法
  • 【电路笔记】-布尔逻辑AND函数
  • C#(11) 运算符重载
  • Linux下Intel编译器oneAPI安装和链接MKL库编译
  • 【通俗理解】ELBO(证据下界)——机器学习中的“情感纽带”
  • php 使用mqtt
  • STM32学习笔记-----什么是同步/异步/全双工/半双工/单工?
  • 网络安全之内网安全
  • Odoo中,要实现实时数据推送,SSE 与 WebSocket 该如何选择
  • CTF--php伪协议结合Base64绕过
  • 设计模式-创建型-抽象工厂模式
  • Hadoop 系列 MapReduce:Map、Shuffle、Reduce