当前位置: 首页 > news >正文

DataX将MySQL数据同步到HDFS中时,空值不处理可以吗

DataX将MySQL数据同步到HDFS中时,空值存到HDFS中时,默认是存储为\N,这样会有两个缺点:

  1. 会产生歧义,如果MySQL业务数据中有\N数据,那么存储到HDFS上是\N,null值存储也是\N,当用Hive查询时,会用is null进行查询,那么会把真实的业务数据也查询为null,所以建议存储到HDFS上时,把null存储为''
  2. 将HDFS的数据再导入MySQL时,会把\N存储进去,数据就不对了

处理方案有2个:

  1. 不处理。那么datax会存储\N,hive会自动把\N查询为null。但是会产生歧义
  2. 修改源码。
    1. 修改DataX HDFS Writer的源码,增加自定义null值存储格式的逻辑,可参考记Datax3.0解决MySQL抽数到HDFSNULL变为空字符的问题_datax nullformat_谭正强的博客-CSDN博客。 
    2. 在Hive中建表时指定null值存储格式为空字符串(''),例如:

    3. DROP TABLE IF EXISTS base_province;
      CREATE EXTERNAL TABLE base_province
      (`id`         STRING COMMENT '编号',`name`       STRING COMMENT '省份名称',`region_id`  STRING COMMENT '地区ID',`area_code`  STRING COMMENT '地区编码',`iso_code`   STRING COMMENT '旧版ISO-3166-2编码,供可视化使用',`iso_3166_2` STRING COMMENT '新版IOS-3166-2编码,供可视化使用'
      ) COMMENT '省份表'ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'NULL DEFINED AS ''LOCATION '/base_province/';

参考文章:

  1. http://t.csdn.cn/WmEEW
  2. hive 空值的处理
http://www.lryc.cn/news/105711.html

相关文章:

  • P3373 【模板】线段树 2(乘法与加法)(内附封面)
  • 实现langchain-ChatGLM API调用客户端(及未解决的问题)
  • 【AltWalker】模型驱动:轻松实现自动化测试用例的生成和组织执行
  • 大数据课程E3——Flume的Sink
  • 如何快速做单元测试?
  • 不同对象的集合转换
  • 【机器学习】Gradient Descent
  • 直播读弹幕机器人:直播弹幕采集+文字转语音(附完整代码)
  • K3s vs K8s:轻量级对决 - 探索替代方案
  • dev控件gridControl,gridview中添加合计
  • SpringBoot基础认识
  • 二十三种设计模式第十九篇--命令模式
  • STM32基础入门学习笔记:基础知识和理论 开发环境建立
  • Qt应用开发(基础篇)——数值微调输入框QAbstractSpinBox、QSpinBox、QDoubleSpinBox
  • html | 无js二级菜单
  • appium的基本使用
  • Dockerfile构建nginx镜像(编译安装)
  • 手机屏幕视窗机器视觉定位软硬件-康耐德
  • Databend 开源周报第 104 期
  • 用于医学图像分类的双引导的扩散网络
  • 8.2day03 Redis入门+解决员工模块
  • 通过案例实战详解elasticsearch自定义打分function_score的使用
  • SpringBoot第28讲:SpringBoot集成MySQL - MyBatis-Plus方式
  • AI 绘画Stable Diffusion 研究(三)sd模型种类介绍及安装使用详解
  • Docker 命令没有提示信息
  • springboot第33集:nacos图
  • 学习gRPC(一)
  • 【二进制安全】堆漏洞:Double Free原理
  • python之open,打开文件时,遇到解码错误处理方式
  • STM32 CAN通信-CubeMX环境下CAN通信程序的编程与调试经验