当前位置：首页 > news >正文

天坑！Spark+Hive+Paimon+Dolphinscheduler

news 2025/8/26 6:26:34

背景：

数据中台项目使用Spark+Hive+Paimon做湖仓底层，调度任务使用的是基于Dolphinscheduler进行二开。在做离线脚本任务开发时，在Paimon库下执行非查询类SQL报错。

INSERT报错

DELETE报错

现状：

原始逻辑为数据中台中选择的Paimon数据源，实际上在Dolphinscheduler中是选择的Hive数据源。所以在Dolphinscheduler中，实际上是选择了一个SQL类型的任务节点，数据原类型选择Hive。执行后就会报以上两个错误。

排查思路以及解决方案：

在这种多组件复杂环境的情况下去排查问题，需要分段排查。首先确认是否是数据中台代码的问题。

1. 脱离数据中台直接在Dolphinscheduler创建一个工作流，任务节点选择SQL，选择Hive数据源执行insert代码。发现是同样的报错。

所以可以先排除是数据中台在创建Dolphinscheduler工作流的问题，但这不代表原逻辑正确。

2. Dolphinscheduler只是一个调度，除非是他无法实现这个功能，基本上不会出现问题，所以继续向下排查。

3. 排查Spark+Hive+Paimon

分别来看一下这三个组件在数据中台中的作用

Spark+Hive

在我们的中台中，是Spark on Hive 是Hive只作为存储角色，Spark负责sql解析优化，执行。也就是Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。

具体步骤如下：

通过SparkSQL，加载Hive的配置文件，获取到

查看全文

http://www.lryc.cn/news/452908.html

JAVA——IO框架

项目管理系统如何实现项目申报流程自动化？

ndb9300public-ndb2excel简介

C++：const成员

基于ROS的激光雷达点云物体检测

大模型训练环境搭建

使用Java调用GeoTools实现全球国家矢量数据入库实战

计算机毕业设计基于Python的广东旅游数据分析系统的设计与实现 Python+Django+Vue Python爬虫附源码讲解文档

Springboo通过http请求下载文件到服务器

使用CSS实现酷炫加载

【STM32-HAL库】AHT10温湿度传感器使用（STM32F407ZGT6配置i2c）（附带工程下载连接）

深入理解网络通信: 长连接、短连接与WebSocket

Linux·环境变量与进程地址空间

MYSQL 乐观锁

SpringCloud入门（十二）全局过滤器和跨域

51单片机系列-按键检测原理

基于元神操作系统实现NTFS文件操作（五）

AutoCAD学习

go的一些知识点

前端 vue3 对接科大讯飞的语音在线合成API

缺省参数

Stable Diffusion绘画 | 来训练属于自己的模型：炼丹启动

08_OpenCV文字图片绘制

【笔记】选择题笔记+数据结构笔记

浅谈汽车智能座舱如何实现多通道音频

系统架构设计师教程第13章 13.1层次式体系结构概述笔记

cnn突破一（先搞定三层反馈神经网络bpnet，c#实现）

如何创建一个docker，给它命名，且下次重新打开它

【D3.js in Action 3 精译_025】3.4 让 D3 数据适应屏幕（中）—— 线性比例尺的用法

Python的多线程与多进程：并发编程基础与实战

相关文章：