当前位置：首页 > news >正文

spark sql如何行转列

news 2025/7/15 0:49:30

在数据仓库中，行转列通常称为”变形”(Pivoting) 或 “透视”(Pivoting)，可使用Spark SQL的pivot语句实现。下面是一个简单的示例：

假设我们有如下表格：

+-------+-------+------+
| name  | brand | year |
+-------+-------+------+
| Alice | BMW   | 2017 |
| Bob   | Tesla | 2018 |
| Alice | Tesla | 2019 |
| Bob   | BMW   | 2020 |
+-------+-------+------+

我们想要把该表中的品牌列转换为4列，分别表示不同的品牌，而值则为对应品牌的年份。具体操作如下：

SELECT name, COALESCE(BMW, 0) AS BMW, COALESCE(Tesla, 0) AS Tesla 
FROM (SELECT name,brand,year FROM my_table
) T
PIVOT (MAX(year) FOR brand IN ('BMW', 'Tesla')
)

运行上面的代码，得到的结果如下所示：

+-------+------+------+
| name  | BMW  | Tesla|
+-------+------+------+
| Alice | 2017 | 2019 |
| Bob   | 2020 | 2018 |
+-------+------+------+

可以看到，原本的品牌列已经被转换成了两个新的列，并且对于每个人名，都有对应的品牌年份信息填充其中。这就是典型的行转列操作。其中，COALESCE函数用于处理可能存在的空值情况。

查看全文

http://www.lryc.cn/news/187255.html

Prompt-Tuning（一)

域信息收集

MySQ 学习笔记

pdf文档内容提取pdfplumber、PyPDF2

运算符

利用freesurfer6进行海马分割的环境配置和步骤，以及获取海马体积

haproxy使用

轻松实现时间录入自由！如何在Microsoft Word中轻松插入格式化的日期和时间

KylinOSv10系统k8s集群启动mysql5.7占用内存高的问题

c语言练习84：动态内存管理

[Go版]设计模式——Template模版方法模式

数据结构 | (四) Queue

让照片人物开口说话，SadTalker 安装及使用（避坑指南）

系统架构设计：6 论软件质量保证及其应用

vscode的窗口下拉显示行数不够

Linux UWB Stack实现——MCPS调度接口（数据结构）

2023Q3数据安全政策、法规、标准及报告汇总（附下载）

Ceph入门到精通-iptables 限制多个ip 的多个端口段访问

【C/C++】STL——深度剖析vector容器

如何在idea中隐藏文件或文件夹

Scala第二十章节

redis的持久化消息队列

分类预测 | MATLAB实现KOA-CNN开普勒算法优化卷积神经网络数据分类预测

用 Pytorch 自己构建一个Transformer

Docker安装ActiveMQ

【二】spring boot-设计思想

相关文章：