当前位置: 首页 > news >正文

spark-sql建表数据同步到hive

1、基础环境

组件版本备注
hadoop3.4.0官方下载
hive3.1.3自编译
sparkspark-3.5.3-bin-hadoop3官方下载,需要内置hive的jar相关内容
paimon0.9.0Maven官方下载
jdk1.8.0_41
maven3.9.6固定版本

2、停止服务、清理日志

先停止,清理数据

sudo kill -9 $(ps -ef|grep hadoop|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep spark|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep hive|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep hive|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep flink|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep topsa|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
sudo kill -9 $(ps -ef|grep topsec|gawk '$0 !~/grep/ {print $2}' |tr -s '\n' ' ')
rm -rf /cluster/hadoop3/logs/*
rm -rf /cluster/hadoop3/logs/*
rm -rf /cluster/spark/logs/*
rm -rf /cluster/hive/logs/*
rm -rf /cluster/*.log
rm -rf /cluster/hadoop3/data/*
rm -rf /tmp/*

3、格式化Hadoop并启动 

/cluster/hadoop3/bin/hdfs namenode -format
/cluster/hadoop3/sbin/start-all.sh

4、启动spark 

/cluster/spark/sbin/start-all.sh

5、启动Hive服务 

nohup /cluster/hive/bin/hivemetastore2 > 2a.log &
nohup /cluster/hive/bin/hiveserver2 > 2b.log &

 6、Hdfs上创建存储目录

/cluster/hadoop3/bin/hdfs dfs -mkdir -p /spark-eventLog
/cluster/hadoop3/bin/hdfs dfs -mkdir -p /paimon/warehouse/example

7、启动spark-sql 

/cluster/spark/bin/spark-sql --jars /cluster/lib/paimon-spark-3.5-0.9.0.jar --conf spark.sql.catalog.paimon=org.apache.paimon.spark.SparkCatalog --conf spark.sql.catalog.paimon.metastore=hive --conf spark.sql.catalog.paimon.uri=thrift://10.10.10.99:9083 --conf spark.sql.catalog.paimon.warehouse=hdfs://10.10.10.99:8020/paimon/warehouse/hive-paimon --conf spark.sql.extensions=org.apache.paimon.spark.extensions.PaimonSparkSessionExtensions --conf spark.serializer=org.apache.spark.serializer.KryoSerializer
 

8、使用paimon创建数据库、数据表

-- 切换到paimon catalog
USE paimon;

-- 在已建立的paimon catalog中,建立数据库。
CREATE DATABASE my_db;
USE my_db;

-- 建立Paimon表。
CREATE TABLE my_table (
    uuid int,
    name string,
    height double,address string
) TBLPROPERTIES (
    'primary-key' = 'uuid'
);

 

9、插入数据

-- 向Paimon中写入数据。
INSERT INTO paimon.my_db.my_table VALUES (1, 'M', 173.5,'北京市朝阳区'), (2, 'G',185, '上海市'), (3, 'cherry', 168.0,'河北省秦皇岛市');
 

 10、在hive中查看数据

/cluster/hive/bin/beeline
!connect jdbc:hive2://10.10.10.99:10000

输入用户名和密码

备注需要将将paimon-hive-connector-3.1-0.9.0.jar上传到hive的lib目录下/cluster/hive/lib

否则,查询执行select的时候会报错。

使用show databases;   show tables 相关命令可以查询数据库和表

 使用select在hive中查询数据

 11、HDFS上查看数据存储

系统进程,通过jps -l查看

http://www.lryc.cn/news/450432.html

相关文章:

  • Django上下文处理器
  • 旭升集团携手纷享销客,构建全方位客户关系管理平台
  • uniapp 知识点
  • 慢病中医药膳养生食疗管理微信小程序、基于微信小程序的慢病中医药膳养生食疗管理系统设计与实现、中医药膳养生食疗管理微信小程序的开发与应用(源码+文档+定制)
  • 解决 Android WebView 无法加载 H5 页面常见问题的实用指南
  • Ollama本地部署大模型及应用
  • 读代码UNET
  • 【java】前端RSA加密后端解密
  • 机器学习 | Scikit Learn中的普通最小二乘法和岭回归
  • 代码随想录冲冲冲 Day60 图论Part11
  • golang web笔记-1.创建Web Server和Handler请求
  • 【Python】Copier:高效的项目模板化工具
  • Spring系列 BeanPostProcessor
  • Qualitor processVariavel.php 未授权命令注入漏洞复现(CVE-2023-47253)
  • SpringBoot的概述与搭建
  • 视频集成与融合项目中需要视频编码,但是分辨率不兼容怎么办?
  • kafka 换盘重平衡副本 操作流程
  • vue3.0 + element plus 全局自定义指令:select滚动分页
  • HarmonyOS/OpenHarmony 离线加载web资源,并实现web资源更新
  • 【Spark 实战】基于spark3.4.2+iceberg1.6.1搭建本地调试环境
  • TCP连接建立中不携带数据的报文段为何不消耗序号解析
  • JS设计模式之状态模式:优雅地管理应用中产生的不同状态
  • C语言系列4——指针与数组(1)
  • JS网页设计案例
  • 4.2.1 通过DTS传递物理中断号给Linux
  • 常用性能优化方法
  • 上海我店:创新模式引领本地生活新风尚
  • 【微服务】前端微服务qiankun 2.x主子应用通信代码片段
  • 高级java每日一道面试题-2024年9月30日-算法篇-LRU是什么?如何实现?
  • CSS选择器的全面解析与实战应用