当前位置: 首页 > news >正文

datax导入到hive的数据量翻倍

现象 mysql->hive 或者oracle->hdfs 

源表数据100w  结果hive表数据200w。

这个现象很容易发生,只要你同一时间调度这个json两次。

原因 

"writeMode" : "append", "nonconflict","truncate"
* append,写入前不做任何处理,data-ingestion hdfswriter直接使用filename写入,并保证文件名不冲突。
* truncate 会把filename的文件的删掉
* nonConflict,如果目录下有fileName前缀的文件,直接报错。

那么问题出在哪里呢? 

因为hive的数据底层就是文件,有文件就有数据,这中间并没有像mysql这种插入一条数据这种事务关系。

例如 append 你执行了两次肯定double 

truncate为什么会double呢?

因为datax的执行逻辑是

1.先删除文件

2. 在stageing目录写数据文件

3.最后rename到目标目录。

其中2->3少的有十几秒,多的有几十分钟。

在这段时间内 如果我又执行了一个这个任务,会发生什么呢?

1.删文件,结果前面的都删完了,那我就不删了呗

2. 在stageing目录写数据文件

3.最后rename到目标目录。

2和3步骤重复运行了两次。按道理来说第二次应该把第一次的数据文件删除,可是别人也没跑完,而且还不在同一个目录。怎么删

只好将错就错,到最后就有了两份文件。

所以问题很清楚。解决办法也很简单

1.在我rename的之前我再删一次。

2.在我rename之前我发现突然又有文件了,那我就把自己删了

前者属于删别人,后者属于删自己

个人觉得后者好。

 就是在这里rename之前 判断目录下是否有文件,有文件就删除!!

http://www.lryc.cn/news/26158.html

相关文章:

  • 拿下3个大厂offer的软件测试面试宝典,面试一文搞定
  • 长短记忆神经网络(LSTM,Long Short-Term Memory)
  • Makefile学习2
  • 【字符串】leetcode28. 实现 strStr()(C/C++/Java/Python/Js)
  • 游戏开发是个“坑”,而且是个“天坑”
  • 剑指 Offer 64. 求 1 + 2 + … + n(java解题)
  • 2022 年度_职业项目总结_Java技术点归纳
  • 【项目实战】32G的电脑启动IDEA一个后端服务要2min,谁忍的了?
  • 接口自动化面试题汇总(持续更新)
  • SpringBoot实现静态资源映射,登录功能以及访问拦截验证——以黑马瑞吉外卖为例
  • PythonWeb Django PostgreSQL创建Web项目(三)
  • 【Visual Studio】git提交代码时使用GPG
  • 【反序列化漏洞-02】PHP反序列化漏洞实验详解
  • Gateway网关的使用
  • 【LeetCode】背包问题总结
  • Java的开发工具有哪些?这十款工具大厂都在用!
  • web学习-Node.js入门学习
  • 100 eeeee
  • 物盾安全汤晓冬:工业互联网企业如何应对高发的供应链安全风险?
  • 微纳制造技术——基础知识
  • Makefile的使用
  • RealBasicVSR模型转成ONNX以及用c++推理
  • C语言作用域(变量生存的空间)学习
  • Spark性能优化一 概念篇
  • [数据结构]:09-二分查找(顺序表指针实现形式)(C语言实现)
  • 3.基于Label studio的训练数据标注指南:文本分类任务
  • Python进阶-----面向对象3.0(面对对象三大特征之---封装)
  • 软考中级软件设计师备考建议
  • 【机器学习】决策树(理论)
  • VSCode下载与安装使用教程【超详细讲解】