当前位置: 首页 > news >正文

Datax 数据同步-使用总结(一)

 1,实时同步?

datax 通常做离线数据同步使用。

目前能想到的方案

利用 linux 的定时任务+时间戳的方式做增量同步。

2,同步速度快不快?

单表同步速度还是挺快的

但是如果遇到复杂的 sql 查询,其同步效率,依赖于读取数据的 sql 的执行效率

单表使用 querySql,数量 三千五百万数据,全量同步时间

3,writeMode模式选择

总共三种:insert/replace/update

对于导入端是 mysql的话,

insert 就是单纯的插入。不判重。如果遇到主键冲突,就报错提示。

replace,原理类似 mysql 的 replace into 的原理,

update,原理类似 mysql 的on duplicate key update的原理。

总之,在设计目标的表时候,需要增加唯一索引,避免出现数据重复插入的问题。

4, 优化

这个目前还在研究中。。。。

另外,如果不设置splitPk属性,datax 按单通道执行。

http://www.lryc.cn/news/108740.html

相关文章:

  • 代码随想录算法训练营第九天| 232.用栈实现队列,225.用队列实现栈
  • 求解二次方程
  • 【hive 运维】hive注释/数据支持中文
  • 架构,性能和游戏 《游戏编程模式》学习笔记
  • Spring Bean的生命周期
  • 基于量子同态的安全多方量子求和加密
  • 前端自动化测试:确保质量和稳定性的关键步骤
  • 《Ansible自动化工具篇:Centos操作系统基于ansible工具一键远程离线部署之K8S1.24.12二进制版集群》
  • Java实现十大经典排序算法之快速排序
  • 【0803作业】创建两个线程:其中一个线程拷贝图片的前半部分,另一个线程拷贝后半部分(4种方法)
  • php运算符的短路特性
  • C语言假期作业 DAY 13
  • 以产品经理的角度去讲解原型图---会议OA项目
  • C++ 外部变量和外部函数
  • C# Onnx Paddle模型 OCR识别服务
  • MCUXpresso for VS Code -- 基于VSCode开发RT1176
  • MySQL的使用——【初识MySQL】第二节
  • MySQL最终弹-并发(脏读,不可重复读,幻读及区别),JDBC的使用和安装,最全万字
  • ⌈C++⌋从无到有了解并掌握C++面向对象三大特性——封装、继承、多态
  • Element的el-select下拉框多选添加全选功能
  • python调用pytorch的clip模型时报错
  • MySQL 数据库 binLog 日志的使用
  • Apache Storm入门介绍之三分钟看懂Apache Storm
  • RF手机天线仿真介绍(三):调谐开关分析
  • Ubuntu20.04 + QT5.14.2 + VTK8.2.0 + PCL 1.10 环境配置
  • GPT Prompt编写的艺术:如何提高AI模型的表现力
  • Ubuntu18.04 安装opencv 4.8.0教程(亲测可用)
  • 【腾讯云Cloud Studio实战训练营】React 快速构建点餐页面
  • 自监督去噪:Noise2Self原理分析及实现 (Pytorch)
  • docker容器学习笔记1