当前位置: 首页 > news >正文

Hive与Presto中的列转行区别

Hive与Presto列转行的区别

    • 1、背景描述
    • 2、Hive/Spark列转行
    • 3、Presto列转行



1、背景描述


在处理数据时,我们经常会遇到一个字段存储多个值,这时需要把一行数据转换为多行数据,形成标准的结构化数据

例如,将下面的两列数据并列转换为三行,使得codename一一对应

idcodename
1a、b、cA、B、C

Hive、Spark和Presto都提供了这种实现,但有所不同。下面通过这个案例介绍三者之间的区别及注意事项

2、Hive/Spark列转行


Hive和Spark都可以使用lateral view posexplode实现:

select id, pos1, sub_code, pos2, sub_name from tmp
lateral view posexplode(split(code,'、')) v1 as pos1, sub_code
lateral view posexplode(split(name,'、')) v2 as pos2, sub_name
where id='1' and pos1=pos2

Hive On MapReduce与Hive On Spark的执行结果如下:

idsub_codesub_name
1aA
1bB
1cC

值得注意的是,lateral view posexplode会自动过滤被转换列字段值为空的数据,进而导致数据丢失

优化方案是将lateral view修改为lateral view outer后尝试

更多关于lateral view UDTF的使用见文章:传送门

3、Presto列转行


使用PrestoSQL的交叉连接cross join unnest实现:

with t1 as(select id,sub_code,row_number() over() rnfrom tempcross join unnest(split(code, '、')) as t (sub_code)where id='1'
),
t2 as (select id,sub_name,row_number() over() rnfrom tempcross join unnest(split(name, '、')) as t (sub_name)where id='1'
)
select t1.id, t1.sub_code, t2.sub_name
from t1
left join t2 
on t1.rn = t2.rn
order by t1.rn

PrestoSQL的执行结果如下:

idsub_codesub_name
1bB
1aA
1cC

需要注意的是,cross join unnest不会自动过滤被转换列和转换列字段值为空的数据,因此此方式数据不会丢失

例如,当转换列字段值存在空值时:

idcodename
1a、b、cA、B

cross join unnest列转行的结果为

idsub_codesub_name
1aA
1cNULL
1bB

当被转换列字段值存在空值时:

idcodename
1a、b、cNULL

cross join unnest列转行的结果为

idsub_codesub_name
1bNULL
1aNULL
1cNULL


http://www.lryc.cn/news/296219.html

相关文章:

  • 探讨CSDN等级制度:博客等级、原力等级、创作者等级
  • 2.8作业
  • 机器学习中常用的性能度量—— ROC 和 AUC
  • 微服务入门篇:Nacos注册中心(Nacos安装,快速入门,多级存储,负载均衡,环境隔离,配置管理,热更新,集群搭建,nginx反向代理)
  • 解决CORS错误(Spring Boot)
  • NLP入门系列—词嵌入 Word embedding
  • JUnit5单元测试框架提供的注解
  • ThinkPHP 中使用Redis
  • Go语言Gin框架安全加固:全面解析SQL注入、XSS与CSRF的解决方案
  • MySQL数据库基础与SELECT语句使用梳理
  • scikit-learn 1.3.X 版本 bug - F1 分数计算错误
  • Python面试题19-24
  • 《Django+React前后端分离项目开发实战:爱计划》 01 项目整体概述
  • 从零开始 TensorRT(4)命令行工具篇:trtexec 基本功能
  • 基于SpringBoot+Vue的校园博客管理系统
  • 基于 SpringBoot 和 Vue.js 的权限管理系统部署教程
  • Redis篇之集群
  • JUnit 5 注解总结与解析
  • CSS综合案例4
  • WifiConfigStore初始化读取-Android13
  • 【Spring源码解读!底层原理进阶】【下】探寻Spring内部:BeanFactory和ApplicationContext实现原理揭秘✨
  • 从零开始手写mmo游戏从框架到爆炸(六)— 消息处理工厂
  • Go基础学习笔记-知识点
  • jvm几个常见面试题整理
  • ReentrantLock 和 公平锁
  • 使用Postman做API自动化测试
  • 入门指南|Chat GPT 的兴起:它如何改变数字营销格局?
  • 【C#】.net core 6.0 创建默认Web应用,以及默认结构讲解,适合初学者
  • Linux中的numactl命令指南
  • AD域国产替代方案,助力某金融企业麒麟信创电脑实现“真替真用”