当前位置: 首页 > news >正文

MySQL 中 DISTINCT 去重的核心注意事项详解

以下是 MySQL 中 DISTINCT 去重的核心注意事项详解


📌 DISTINCT 六大注意事项

1. 作用范围:所有 SELECT 字段
SELECT DISTINCT a, b FROM table;  -- 对(a,b)组合整体去重

⚠️ 误以为只作用于第一个字段

-- 错误理解:以为只对name去重
SELECT DISTINCT name, class FROM students;  

实际效果:对 (name, class) 组合去重(如 ('张三','一班')('张三','二班') 算不同记录)


2. NULL 值的特殊处理
INSERT INTO students (name, class, score) VALUES (NULL, '三班', 90);SELECT DISTINCT name FROM students;

结果

+--------+
| name   |
+--------+
| 张三   |
| 李四   |
| 王五   |
| NULL   |  -- NULL被视为独立值保留
+--------+

3. 性能陷阱(大数据量)
-- 当表有百万行时慎用
SELECT DISTINCT text_column FROM huge_table; 

优化方案

-- 先通过WHERE缩小范围再去重
SELECT DISTINCT text_column 
FROM huge_table 
WHERE create_time > '2023-01-01';-- 或添加索引(对text类型有限制)
ALTER TABLE huge_table ADD INDEX idx_text(text_column(20)); -- 前缀索引

4. 与 ORDER BY 的优先级
SELECT DISTINCT class 
FROM students 
ORDER BY score DESC; -- 错误!score不在SELECT中

正确写法

-- 方案1:排序字段必须在SELECT中
SELECT DISTINCT class, MAX(score) AS max_score 
FROM students 
GROUP BY class 
ORDER BY max_score DESC;-- 方案2:子查询
SELECT DISTINCT class FROM (SELECT class, score FROM students ORDER BY score DESC
) AS tmp;

5. 聚合函数中的 DISTINCT
-- 统计不重复的班级数量
SELECT COUNT(DISTINCT class) FROM students; -- 错误用法(语法无效):
SELECT DISTINCT COUNT(class) FROM students; 

6. 不可用于部分字段计算
-- 尝试计算不同班级的平均分(错误!)
SELECT DISTINCT class, AVG(score) FROM students; 

正确做法:必须配合 GROUP BY

SELECT class, AVG(score) 
FROM students 
GROUP BY class;  -- 这才是标准解法

⚠️ 高级注意点

7. 与 LIMIT 的配合问题
SELECT DISTINCT class FROM students LIMIT 2;

结果不确定性
返回的 2 条记录是随机的(除非指定 ORDER BY),不同执行可能结果不同。


8. 临时表空间占用
  • DISTINCT 操作会在内存/磁盘创建临时表存储唯一值
  • 当去重字段总数据量超过 tmp_table_size 时,性能急剧下降

查看阈值

SHOW VARIABLES LIKE 'tmp_table_size'; -- 默认16MB

🔍 对比 GROUP BY 去重

特性DISTINCTGROUP BY
是否可搭配聚合函数✅ (如SUM/AVG)
结果排序无序可按分组键排序
执行效率简单场景更快复杂聚合时更优
索引利用可使用索引必须用分组字段索引

最佳实践总结

  1. 小数据量:直接 DISTINCT 简洁高效
  2. 需要聚合计算:用 GROUP BY 替代
  3. 精确去重计数:优先 COUNT(DISTINCT column)
  4. 排序需求:必须显式写 ORDER BY
  5. 超大数据:先过滤再去重 + 合理索引

🚀 实战检验

订单表 orders 结构

CREATE TABLE orders (id INT PRIMARY KEY,product_id INT,user_id INT,amount DECIMAL(10,2),coupon_code VARCHAR(20) -- 允许为NULL
);

问题
如何高效获取使用过不同优惠券的用户ID列表(含NULL)?

👉 写出你的解决方案:
SELECT _______________________________
FROM orders;

答案(折叠)

-- 方案1:基础写法
SELECT DISTINCT user_id, coupon_code 
FROM orders 
WHERE coupon_code IS NOT NULL; -- 若需包含NULL则去掉WHERE-- 方案2:大数据量优化(添加联合索引)
ALTER TABLE orders ADD INDEX idx_user_coupon(user_id, coupon_code);
SELECT DISTINCT user_id, coupon_code FROM orders;
http://www.lryc.cn/news/571408.html

相关文章:

  • MSPM0G3507学习笔记(二) 超便捷配置led与按键
  • ffmpeg webm 透明通道视频转成rgba图片
  • 基于最新豆包大模型1.6实现 ArXiv Paper Reading MCP与Agent构建
  • C++ map代码练习 1、2、priority_queue基础概念、对象创建、数据插入、获取堆顶、出队操作、大小操作,自定义结构、代码练习 1 2
  • 电机及驱动器的安全、性能和能效认证
  • 02 ( chrome 浏览器插件, 立马翻译), 搭建本地 api
  • c++学习-多态
  • MacOS上MySQL的安装以及使用
  • 【编译工具】CodeRider 2.0:驭码 CodeRider 2.0 产品功能分析
  • 【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变(软件篇)(二)
  • RK 安卓10/11平台 HDMI-IN 调试
  • RAG轻松通-P1:分块
  • 爬虫技术:数据获取的利器与伦理边界
  • 输电线路电缆护层环流在线监测装置:原理、优势与应用解析
  • Elasticsearch/OpenSearch MCP Quickstart
  • 日本生活:日语语言学校-日语作文-沟通无国界(2):回忆深刻的生日
  • threejs webVR获取相机正前方向量
  • 【保姆级】讯飞ROS智能车 Debian系统 U盘克隆/恢复教程
  • Spring Boot启动流程深度解析(源码级剖析)
  • 键盘动作可视化技术浅析:如何做到低延迟显示
  • word如何插入高清晰的matlab绘图
  • 【数据分析三:Data Storage】数据存储
  • Kafka数据写入流程源码深度剖析(Broker篇)
  • Python训练营打卡Day50
  • Linux网络配置工具ifconfig与ip命令的全面对比
  • 游戏技能编辑器之状态机的设计与实现
  • 攻防世界[level7]-Web_php_wrong_nginx_config
  • 一次生产故障引发的JVM垃圾回收器选型思考:彻底掌握垃圾回收原理及通用配置!
  • 在 Java 中操作 Map时,高效遍历和安全删除数据
  • Arrays.asList() 的不可变陷阱:问题、原理与解决方案