当前位置: 首页 > news >正文

HIVE 窗口函数处理重复数据

窗口函数row_number(),结合OVER子句中的PARTITION BYORDER BY,为数据分组内的每一行生成一个唯一的序号。具体分析如下:

函数作用:

  • row_number():为每个分组内的行分配一个唯一的连续序号(从1开始)。

OVER子句详解:

  1. PARTITION BY t1.org_code, t1.customer_code

    • 将数据按 org_code(机构代码)和 customer_code(客户代码) 分组。

    • 窗口计算会独立发生在每个分组内

  2. ORDER BY t1.id DESC

    • 在每个分组内,按 id 字段降序排列(即 id 值最大的排在最前面)。

    • 序号分配基于此排序:最大的 id 对应 rank=1,次大的 id 对应 rank=2,以此类推

结果列名:

  • 生成的序号列名为 rank(可在后续查询中通过此名称引用)。

典型使用场景示例:

SELECT *
FROM (SELECT t1.*,ROW_NUMBER() OVER (PARTITION BY t1.org_code, t1.customer_codeORDER BY t1.id DESC) AS rankFROM your_table t1
) subquery
WHERE rank = 1; -- 获取每个分组内最新的一条记录(id最大)

注意事项:

  • 若需要完全去重(如多行 id 相同时只取一条),优先用 ROW_NUMBER()

  • 若需保留相同 id 的所有记录,改用 RANK() 或 DENSE_RANK()

  • 性能:在分区字段(org_codecustomer_code)和排序字段(id)上建立索引可加速计算。

http://www.lryc.cn/news/612494.html

相关文章:

  • 【C/C++】形参、实参相关内容整理
  • GISBox中OSGB数据转3DTiles格式指南
  • 开源流媒体服务器ZLMediaKit 的Java Api实现的Java版ZLMediaKit流媒体服务器-二开视频对话
  • java 之 继承
  • 【Java】HashMap的key可以为null吗?如何存储的?
  • JavaScript 基础语法
  • TDengine IDMP 背后的技术三问:目录、标准与情景
  • TCP的三次握手和四次挥手实现过程。以及为什么需要三次握手?四次挥手?
  • 8、项目管理
  • 力扣 hot100 Day67
  • 二、Envoy静态配置
  • CentOS8.5安装19c单机告警及处理
  • CS课程项目设计8:基于Canvas支持AI人机对战的五子棋游戏
  • LeetCode 面试经典 150_数组/字符串_O(1)时间插入、删除和获取随机元素(12_380_C++_中等)(哈希表)
  • Linux firewall 防火墙管理
  • Linux systemd 系统管理:systemctl 控制服务与守护进程
  • 深入理解 qRegisterMetaType<T>()
  • 【数据可视化-82】中国城市幸福指数可视化分析:Python + PyEcharts 打造炫酷城市幸福指数可视化大屏
  • JAVA算法练习题day9
  • 蓝桥杯----锁存器、LED、蜂鸣器、继电器、Motor
  • Pytest项目_day06(requests中Session的用法)
  • Python 进行点云ICP(lterative Closest Point)配准(精配准)
  • Java高频方法总结
  • 实习文档背诵
  • chdir系统调用及示例
  • docker启动出现Error response from daemon: Container的问题【已解决】
  • 92、【OS】【Nuttx】【构建】cmake 支持构建的目标
  • InfluxDB 集群部署与高可用方案(二)
  • 【概念学习】深度学习有何不同
  • 敏捷协作平台推荐:Jira、PingCode、Tapd等15款