当前位置: 首页 > news >正文

大数据基础设施搭建 - Spark

文章目录

  • 一、解压压缩包
  • 二、修改配置文件conf/spark-env.sh
  • 三、测试提交Spark任务
  • 四、Spark on Hive配置
    • 4.1 创建hive-site.xml(spark/conf目录)
    • 4.2 查看hive的hive-site.xml配置与3.1配置的是否一致
    • 4.3 测试SparkSQL
      • 4.3.1 启动SparkSQL客户端(Yarn方式)
      • 4.3.2 启动Hive客户端
  • 五、通过Spark Web-UI分析SQL执行过程(TODO)
  • 六、集群化(TODO)

一、解压压缩包

[hadoop@hadoop102 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

二、修改配置文件conf/spark-env.sh

cd /opt/module/spark-3.0.0-bin-hadoop3.2/conf
[hadoop@hadoop102 conf]$ cp spark-env.sh.template spark-env.sh
[hadoop@hadoop102 conf]$ vim spark-env.sh

内容:

export JAVA_HOME=/opt/module/jdk1.8.0_291
YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

三、测试提交Spark任务

[hadoop@hadoop102 ~]$ cd /opt/module/spark-3.0.0-bin-hadoop3.2/
[hadoop@hadoop102 spark-3.0.0-bin-hadoop3.2]$ bin/spark-submit \
> --class org.apache.spark.examples.SparkPi \
> --master yarn \
> --deploy-mode cluster \
> ./examples/jars/spark-examples_2.12-3.0.0.jar \
> 10

到YARN WEB页面查看任务提交情况

四、Spark on Hive配置

4.1 创建hive-site.xml(spark/conf目录)

[hadoop@hadoop102 conf]$ cd /opt/module/spark-3.0.0-bin-hadoop3.2/conf/
[hadoop@hadoop102 conf]$ vim hive-site.xml

内容:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration><!--告知Spark创建表存到哪里--><property><name>hive.metastore.warehouse.dir</name><value>/warehouse</value></property><!-- 不使用spark内置hive存储元数据 --><property><name>hive.metastore.local</name><value>false</value></property><!--告知Spark Hive的MetaStore在哪--><property><name>hive.metastore.uris</name><value>thrift://hadoop102:9083</value></property></configuration>

4.2 查看hive的hive-site.xml配置与3.1配置的是否一致

cd /opt/module/apache-hive-3.1.2-bin/conf
vim hive-site.xml

4.3 测试SparkSQL

4.3.1 启动SparkSQL客户端(Yarn方式)

[hadoop@hadoop102 spark-3.0.0-bin-hadoop3.2]$ bin/spark-sql --master yarn
spark-sql> show databases;
spark-sql> select count(1)> from dw_ods.ods_activity_info_full > where dt='2023-12-07';

4.3.2 启动Hive客户端

[hadoop@hadoop102 apache-hive-3.1.2-bin]$ bin/hive
hive> show databases;
hive> select count(1)> from dw_ods.ods_activity_info_full > where dt='2023-12-07';

五、通过Spark Web-UI分析SQL执行过程(TODO)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

六、集群化(TODO)

优势在哪里??

http://www.lryc.cn/news/334127.html

相关文章:

  • 轻松上手Jackjson(珍藏版)
  • Pytorch数据结构:Tensor(张量)及其维度和数据类型
  • 【THM】Protocols and Servers 2(协议和服务器 2
  • 阿里云服务器可以干什么?阿里云服务器主要用途是干嘛的?
  • LeetCode hoot100-22
  • 蓝桥杯 经验技巧篇
  • QMC5883芯片I2C驱动开发指南
  • 缓存击穿以及解决方案
  • 【电路笔记】-逻辑非门
  • vue-element-admin vue3版本搭建
  • 大话设计模式——11.桥接模式(Bridge Pattern)
  • 新概念英语1:Lesson 25学习笔记
  • Java 8 内存管理原理解析及内存故障排查实践
  • RH850从0搭建Autosar开发环境【3X】- Davinci Configurator之RTE模块配置详解(上)
  • 小米汽车su7全色系展示源码
  • 钉钉事件订阅前缀树算法gin框架解析
  • React18从入门到实战
  • 【漏洞复现】某科技X2Modbus网关多个漏洞
  • 专业140+总410+国防科技大学831信号与系统考研经验国防科大电子信息与通信,真题,大纲,参考书。
  • 【Linux】进程管理(2):进程控制
  • 组合数(费马小定理, 快速幂)
  • VMware Esxi安装群辉系统
  • arm交叉编译器工具
  • Dajngo -- 表单
  • NIO基础知识
  • C语言正则表达式 regnext regreplace regreplaceAll
  • 使用aspose相关包将excel转成pdf 并导出
  • 按关键字搜索商品API接口搜索关键字,显示商品总数,标题,图片,优惠价参数等
  • 网络基础知识入门
  • D435i发布的话题学习