当前位置: 首页 > news >正文

天坑!Spark+Hive+Paimon+Dolphinscheduler

背景:

数据中台项目使用Spark+Hive+Paimon做湖仓底层,调度任务使用的是基于Dolphinscheduler进行二开。在做离线脚本任务开发时,在Paimon库下执行非查询类SQL报错。

INSERT报错

DELETE报错

 现状:

原始逻辑为数据中台中选择的Paimon数据源,实际上在Dolphinscheduler中是选择的Hive数据源。所以在Dolphinscheduler中,实际上是选择了一个SQL类型的任务节点,数据原类型选择Hive。执行后就会报以上两个错误。

排查思路以及解决方案:

在这种多组件复杂环境的情况下去排查问题,需要分段排查。首先确认是否是数据中台代码的问题。

1. 脱离数据中台直接在Dolphinscheduler创建一个工作流,任务节点选择SQL,选择Hive数据源执行insert代码。发现是同样的报错。

所以可以先排除是数据中台在创建Dolphinscheduler工作流的问题,但这不代表原逻辑正确。

2. Dolphinscheduler只是一个调度,除非是他无法实现这个功能,基本上不会出现问题,所以继续向下排查。

3. 排查Spark+Hive+Paimon

分别来看一下这三个组件在数据中台中的作用

Spark+Hive

在我们的中台中,是Spark on Hive 是Hive只作为存储角色,Spark负责sql解析优化,执行。也就是Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。

具体步骤如下:

  • 通过SparkSQL,加载Hive的配置文件,获取到

http://www.lryc.cn/news/452908.html

相关文章:

  • JAVA——IO框架
  • 项目管理系统如何实现项目申报流程自动化?
  • ndb9300public-ndb2excel简介
  • C++:const成员
  • 基于ROS的激光雷达点云物体检测
  • 大模型训练环境搭建
  • 使用Java调用GeoTools实现全球国家矢量数据入库实战
  • 计算机毕业设计 基于Python的广东旅游数据分析系统的设计与实现 Python+Django+Vue Python爬虫 附源码 讲解 文档
  • Springboo通过http请求下载文件到服务器
  • 使用CSS实现酷炫加载
  • 【STM32-HAL库】AHT10温湿度传感器使用(STM32F407ZGT6配置i2c)(附带工程下载连接)
  • 深入理解网络通信: 长连接、短连接与WebSocket
  • Linux·环境变量与进程地址空间
  • MYSQL 乐观锁
  • SpringCloud入门(十二)全局过滤器和跨域
  • 51单片机系列-按键检测原理
  • 基于元神操作系统实现NTFS文件操作(五)
  • AutoCAD学习
  • go的一些知识点
  • 前端 vue3 对接科大讯飞的语音在线合成API
  • 缺省参数
  • Stable Diffusion绘画 | 来训练属于自己的模型:炼丹启动
  • 08_OpenCV文字图片绘制
  • 【笔记】选择题笔记+数据结构笔记
  • 浅谈汽车智能座舱如何实现多通道音频
  • 系统架构设计师教程 第13章 13.1层次式体系结构概述 笔记
  • cnn突破一(先搞定三层反馈神经网络bpnet,c#实现)
  • 如何创建一个docker,给它命名,且下次重新打开它
  • 【D3.js in Action 3 精译_025】3.4 让 D3 数据适应屏幕(中)—— 线性比例尺的用法
  • Python的多线程与多进程:并发编程基础与实战