当前位置: 首页 > news >正文

mysql 数据查重与查重分页

起因是公司的crm录入不规范,有重复数据。

之后考虑到需要手动处理,首先需要自动找出重复的数据

查重要求:

存在多个不允许重复的字段,任一字段重复,则判断为同一个客户。划分到同一重复组中。

查重sql如下

SELECT CONCAT('组', dense_rank() OVER (ORDER BY group_key)) AS group_info,id, name, tel
FROM (SELECT id, name, tel,CONCAT_WS('-', IF(name IS NULL, '', name),  IF(tel IS NULL, '', '1')) AS group_key,COUNT(*) OVER (PARTITION BY CONCAT_WS('-', IF(name IS NULL, '', name),  IF(tel IS NULL, '', '1'))) AS group_countFROM customer
) AS subquery
WHERE group_count > 1
ORDER BY group_key

通过上述sql可以获得一个查重的sql。

那么接下来的问题是如果重复数据大,我们是需要一个分页的。首先我们需要知道重复了多少组。

用以下sql获取:

SELECT COUNT(*) AS total_count 
FROM (SELECT DISTINCT group_infoFROM (SELECT CONCAT('组', dense_rank() OVER (ORDER BY group_key)) AS group_info,id, name, tel
FROM (SELECT id, name, tel,CONCAT_WS('-', IF(name IS NULL, '', name),  IF(tel IS NULL, '', '1')) AS group_key,COUNT(*) OVER (PARTITION BY CONCAT_WS('-', IF(name IS NULL, '', name),  IF(tel IS NULL, '', '1'))) AS group_countFROM customer
) AS subquery
WHERE group_count > 1
ORDER BY group_key) AS data_counts
) AS distinct_groups;

这里的分页应当按照重复组分页,传统的分页就失效了。所以我们就需要手动计算分页。

把分组字段group_info中的组字去掉,按group_info进行大于,小于判断

SELECT dense_rank() OVER (ORDER BY group_key)  AS group_info,id, name, tel
FROM (SELECT id, name, tel,CONCAT_WS('-', IF(name IS NULL, '', name),  IF(tel IS NULL, '', '1')) AS group_key,COUNT(*) OVER (PARTITION BY CONCAT_WS('-', IF(name IS NULL, '', name),  IF(tel IS NULL, '', '1'))) AS group_countFROM customer
) AS subquery
WHERE group_count > 1
AND group_info>0 AND group_info<11
ORDER BY group_key

http://www.lryc.cn/news/274030.html

相关文章:

  • 微服务(12)
  • ​iOS实时查看App运行日志
  • 【计算机毕业设计】SSM健身房管理系统
  • 嵌入式Linux之MX6ULL裸机开发学习笔记(IMX启动方式-启动设备的选择)
  • K8S Ingress-Nginx导出TCP端口
  • 索引类型-哈希索引
  • uniapp中组件库的Textarea 文本域的丰富使用方法
  • LLM、AGI、多模态AI 篇三:微调模型
  • IPC之十二:使用libdbus在D-Bus上异步发送/接收信号的实例
  • ES6之生成器(Generator)
  • Matlab技巧[绘画逻辑分析仪产生的数据]
  • Go面试题学习
  • SQL效率-查询条件需避免使用函数处理索引字段
  • 【Spring 篇】Spring:轻松驾驭 Java 世界的利器
  • 八个LOGO素材网站推荐分享
  • React格式化规范
  • 如何利用Conda管理多种虚拟环境与Jupyter Notebook内核切换
  • 博客摘录「 什么是QPS、TPS、吞吐量?- 高并发名词概念」2024年1月5日
  • PTA——逆序的三位数
  • ChatGPT怎么帮我上班的
  • WPF 漂亮长方体、正文体简单实现方法 Path实现长方体 正方体方案 WPF快速实现长方体、正方体的方法源代码
  • Nginx(十三) 配置文件详解 - 反向代理(超详细)
  • 谷歌浏览器启用实时字幕功能
  • php接口优化 使用curl_multi_init批量请求
  • 联邦拜占庭共识算法的工作流程
  • 国家开放大学形成性考核 统一考试 学习资料参考
  • 2401C++,实现文件服务器和聊天室
  • 【ESP-NOW 入门(ESP32 with Arduino IDE)】
  • PHP序列化总结2--常见的魔术方法
  • Docker 入门 ------容器互通以及Dockerfile