当前位置: 首页 > news >正文

HIVE中关联键类型不同导致数据重复,以及数据倾斜

比如左表关联键是string类型,右表关联键是bigint类型,关联后会出现多条的情况

解决方案:

        关联键先统一转成string类型再进行关联

原因:

根据HIVE版本不同,数据位数上限不同,

低版本的超过16位会出现这种情况,高版本的超过19位会出现这种情况

以下为低版本HIVE数据测试情况:

select * 
from (select '3618693946106075234' as str_ord  -- 19位union allselect '361869394610607523' as str_ord  -- 18位union allselect '36186939461060752' as str_ord  -- 17位union allselect '3618693946106075' as str_ord  -- 16位) a
join (select 3618693946106075234  as int_Ordunion all select 3618693946106075233 as int_Ordunion all select 361869394610607523 as int_Ordunion all select 361869394610607524 as int_Ordunion allselect 36186939461060752 as int_Ord  -- 17位union allselect 36186939461060751 as int_Ord  -- 17位union allselect 3618693946106075 as int_Ord  -- 16位union allselect 3618693946106076 as int_Ord  -- 16位) b 
on a.str_ord  = b.int_Ord

http://www.lryc.cn/news/285916.html

相关文章:

  • CRM系统是如何解决企业的痛点的?
  • 系统架构14 - 软件工程(2)
  • vue封装接口
  • Dell戴尔XPS 8930笔记本电脑原装Win10系统 恢复出厂预装OEM系统
  • elasticsearch的拼音分词器安装
  • 2024阿里云优惠,云服务器61元一年起
  • 基于SpringBoot+Vue实现的社区养老管理平台(源码+数据库脚本+设计文档+部署视频)
  • 【漏洞复现】CloudPanel makefile接口远程命令执行漏洞(CVE-2023-35885)
  • 【Spring Boot 3】【Redis】集成Redisson
  • YOLOv8改进 | Conv篇 | 2024.1月最新成果可变形卷积DCNv4(适用检测、Seg、分类、Pose、OBB)
  • 理解反向代理
  • Haar小波下采样模块
  • k8s的包管理工具helm
  • 《WebKit 技术内幕》学习之八(1):硬件加速机制
  • 【Linux对磁盘进行清理、重建、配置文件系统和挂载,进行系统存储管理调整存储结构】
  • RT-DETR算法优化改进:DCNv4更快收敛、更高速度、更高性能,效果秒杀DCNv3、DCNv2等 ,助力检测
  • Docker基础使用
  • 数据库中的经纬度数据如何在QGIS中显示
  • 制作linux运行包
  • 一些 AI 机构
  • AP5191 降压恒流 双灯 12V5A 一切一LED车灯汽车大灯驱动方案
  • 淘宝/天猫获取卖出的商品订单列表 API(taobao.seller_order_list)
  • Linux常规操作指南
  • 原生微信小程AR序实现模型动画播放只播放一次,且停留在最后一秒
  • 【Docker】在centos中安装nginx
  • leetcode:最接近的三数之和---(双指针,排序,数组)
  • dpdk网络转发环境的搭建
  • 【MYSQL】存储引擎MyISAM和InnoDB
  • 什么是DOM?(JavaScript DOM是什么?)
  • UIElement编辑器扩展 组件 Inspector