当前位置：首页 > news >正文

【踩坑】SparkSQL union/unionAll 函数的去重问题

news 2025/7/13 2:06:30

【踩坑】SparkSQL union/unionAll 函数的去重问题

测试数据

case class Employee(first_name:String)val employeeDF1 = spark.createDataset(Seq( Employee("Mary"), Employee("Mandy"),Employee("Kurt")
))
val employeeDF2 = spark.createDataset(Seq( Employee("Mary"), Employee("Julie"), Employee("Mandy"),Employee("Julie"), Employee("Kurt")
))

无论是union还是unionall都不会去重

employeeDF1.union(employeeDF2).show

在这里插入图片描述

employeeDF1.unionAll(employeeDF2).show

在这里插入图片描述

当通过spark.sql执行方式时，union可以去重

employeeDF1.createOrReplaceTempView("ds1")
employeeDF2.createOrReplaceTempView("ds2")

spark.sql("select * from ds1 union select * from ds2").show

在这里插入图片描述

spark.sql("select * from ds1 union all select * from ds2").show

在这里插入图片描述

误区
- SQL标准查询语言　层面（如hive环境）：union去重，unionAll简单合并性能较好
- Spark union 默认按列的位置直接合并，很可能字段错误合并。可使用unionByName作为替代
- 最新官方集合操作文档：https://spark.apache.org/docs/latest/sql-ref-syntax-qry-select-setops.html#set-operators

查看全文

http://www.lryc.cn/news/515432.html