当前位置: 首页 > news >正文

全域数据集成平台ETL

全域数据集成平台ETL

Restcloud 工作原理

RestCloud数据集成平台采用SpringCloud微服务架构技术开发,底层基于纯Java语言采用前后端分离架构,前端采用React技术进行开发。 RestCloud数据集成平台是基于数据流+工作流引擎的架构进行研发的,底层设计了一个专门为数据处理任务流而研发的工作流引擎用以支撑任意复杂的数据流处理包括:串行、同步并行、异步并行、同步子流程、异步子流程、事务控制、循环任务执行、多流合并、数据折分、数据流复制等,而不是基于DAG这种简单的有向无环图的数据流程处理逻辑,得益于我们在工作流上面积累的优势我们不但可以做DAG这种简单的依赖任务处理还可以做复杂的多层任务调度能力,企业可以把数据处理任务分为原子层、逻辑组合层、调度层等方式来组合企业的复杂任务调度需求,可以把一个复杂的数据集成流程拆分成多个可复用的子任务来进行调度。

在RestCloud数据集成平台中数据作为流在多个节点中进行流动、数据可以穿透多个节点以及子任务,这样数据流可以被多个节点以及任务中被访问到,以实现数据复用和分发。 为了保障系统的任务调度的稳定性我们做了大量的工作以及尝试,目前在产品中已经支持了多种调度模式包括:队列模式、主备模式、调度机模式等等目的都是为了保障任务能够被准时执行,同时在任务失败时提供了自动重跑、断点重跑、重跑指定节点、重跑所有下游节点的能力。

请添加图片描述

ETL数据同步CDC实时数据集成操作手册

1.创建数据源

请添加图片描述

2.选择新建数据源

请添加图片描述

3.创建离线数据集成

请添加图片描述

4.新建应用

请添加图片描述

5.新建流程进行流程设计

请添加图片描述

6.新建流程步骤

请添加图片描述

7.同步到Doris的离线流程设计

请添加图片描述

8.实时输入流配置

请添加图片描述

9.实时输入流字段来源

请添加图片描述

10.字段映射配置

请添加图片描述

11.字段映射,一一对应

请添加图片描述

12.数据过滤器配置

请添加图片描述

13.数据过滤器的过滤条件

请添加图片描述

14.Doris快速输出配置

请添加图片描述

15.Doris快速输出字段需要重新读取

请添加图片描述

16.配置实时数据集成

请添加图片描述

17.新建监听器

请添加图片描述

18.监听器配置

请添加图片描述

19.接收端配置

请添加图片描述

20.开启全量+增量/增量模式

请添加图片描述

21.一个监听器监听多张表配置

现场的ETL工具是否使用监听多表视情况而定

由于目前社区版是有限制的,流程数量+监听器数量<=30,如果单独使用一张表一个监听器一个流程,就是资源浪费

看现场具体情况,如果一些不是经常操作(新增,修改,删除)的表可以将这些表放到同一个流程里面,只需要一个监听器一个流程就可以达到效果

当一个流程内表的操作比较频繁,可能会造成数据堵塞,状态一直处于运行中,丢失数据,可以在流程上方的流程属性中增加并发数,注意并发数不能过多(消耗CPU)

创建多表离线流程

请添加图片描述

配置开始处的分支流程线

请添加图片描述

新建多表监听器请添加图片描述
http://www.lryc.cn/news/506799.html

相关文章:

  • 海外储能电站双向计量表功能参数介绍
  • javase-15、正则表达式
  • 【SpringSecurity】SpringSecurity+JWT实现登录
  • jmeter连接mysql
  • 图书馆管理系统(三)基于jquery、ajax
  • Nginx Location 配置块全解析与示例
  • javalock(八)ReentrantReadWriteLock
  • 反射和设计模式
  • 双指针---和为s的两个数字
  • LLaMA-Factory 单卡3080*2 deepspeed zero3 微调Qwen2.5-7B-Instruct
  • 智慧农业云平台与水肥一体化:道品科技引领农业现代化新潮流
  • 241207_MindNLP中的大模型微调
  • MongoDB、Mongoose使用教程
  • 单片机:实现控制步进电机正反转(附带源码)
  • 安装指南|OpenCSG Starship上架GitHub Marketplace
  • Excel设置生日自动智能提醒,公式可直接套用!
  • 同步异步日志系统:前置知识
  • 微服务设计原则——功能设计
  • 低代码软件搭建自学的第一天——熟悉PyQt
  • 基于Python3编写的Golang程序多平台交叉编译自动化脚本
  • 远程桌面连接
  • 网络地址转换NAT
  • 什么是CRM管理软件?CRM的基本概念、功能、选择标准、应用场景
  • Python编程常用的19个经典案例
  • 【Unity基础】AudioSource 常用方法总结
  • CSS系列(25)-- 滚动优化详解
  • CST天线设计的六大核心特点:为天线分析提供完整解决方案!
  • Ubuntu下C语言操作kafka示例
  • 怎么将pdf中的某一个提取出来?介绍几种提取PDF中页面的方法
  • HTTP接口报错详解与解决 200,500,403,408,404