当前位置: 首页 > news >正文

ETL数据同步之DataX,附赠一套DataX通用模板

今天跟大家分享数据同步datax的模板,小伙伴们简单直接借鉴使用。

还记得上一篇关于大数据DS调度工具的分享嘛?

主流大数据调度工具DolphinScheduler之数据ETL流程-CSDN博客

里面的核心就是采用了DATAX的数据同步原理。

一,什么是DataX

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、HDFS、Hive、ADS、HBase、Kingbase 等各种异构数据源之间的数据同步功能。

二,DataX模板

这个模板是把hive的表数据同步到kingbase数据库。

如果你要操作其他数据库之间的同步,可以借鉴,都一样。

这个模板怎么来的??

当然是上次成功调度数据实现同步,从日志中copy来的。

所以,正确性大家毋庸置疑。

如图,JSON里包括两个对象,

一个是content(包括了reader,writer ,connection 等等),

一个是setting。

注意这里的写入模式 writemode 是 upddate,

这里就是在(人大金仓数据库)该表设置的主键。

主流大数据调度工具DolphinScheduler之数据ETL流程-CSDN博客

截取上次链接里面的一张图片来解释一下:

那么设置主键的意义何在呢?

当然是不能同时存在两个相同主键的数据了。

就如同你在咱中国,你的身份证就只能是唯一的一样。

如果一次性多条相同主键的数据,从hive同步kingbase数据库,会随机同步任一一条数据。

如果下次同步的数据里存在与数据库同主键的数据,同步过去会进行数据的更新。

上面的jdbcURL和密码都被我隐藏了哈哈哈。


欢迎大家点赞收藏关注,会不时分享实际工作中的知识点,让智慧不浮于表面。

下次再见!

http://www.lryc.cn/news/403595.html

相关文章:

  • [论文笔记] CT数据配比方法论——1、Motivation
  • 某4G区域终端有时驻留弱信号小区分析
  • 【体外诊断】ARM/X86+FPGA嵌入式计算机在免疫分析设备中的应用
  • Linux上启动和停止jar
  • 浏览器缓存:强缓存与协商缓存实现原理有哪些?
  • 持续集成04--Jenkins结合Gitee创建项目
  • 【Node.js基础02】fs、path模块
  • 牛客TOP101:单链表的排序
  • 数据可视化配色新工具,颜色盘多达2500+类
  • SpringAI简单使用(本地模型+自定义知识库)
  • 为什么要从C语言开始编程
  • [数据集][目标检测]导盲犬拐杖检测数据集VOC+YOLO格式4635张2类别
  • 数据结构(稀疏数组)
  • python 爬虫技术 第02节 基础复习
  • 数据结构-C语言-排序(3)
  • 【分布式事务】怎么解决分布式场景下数据一致性问题
  • C# 中的委托
  • 通过docker构建基于LNMP的WordPress项目
  • 2024新版IntelliJ IDEA修改包名 全网最简单最粗暴的方法
  • C#中处理Socket粘包
  • 7.19IO
  • 【Vue】深入了解 Axios 在 Vue 中的使用:从基本操作到高级用法的全面指南
  • 【Qt】窗口
  • 代码随想录训练营【贪心算法篇】
  • Spark中的JOIN机制
  • WebRTC QOS方法十三.1(TimestampExtrapolator接收时间预估)
  • 深入了解 GCC
  • vscode 打开远程bug vscode Failed to parse remote port from server output
  • 前端组件化技术实践:Vue自定义顶部导航栏组件的探索
  • PyTorch Autograd内部实现