当前位置：首页 > news >正文

MySQL(1)——count()聚合函数

news 2025/6/28 8:16:16

深入剖析一下 MySQL 中的 COUNT() 函数。它是 SQL 中最常用的聚合函数之一，用于计算表中符合特定条件的行数。

核心功能

COUNT() 函数的核心功能是计数。它可以用来：

统计表中所有行的总数。
统计表中特定列的非 NULL 值的数量。
结合 WHERE 子句，统计满足特定条件的行的数量。
结合 GROUP BY 子句，统计每个分组中的行数。

语法形式

COUNT() 函数主要有三种语法形式，它们在行为和性能上有所不同：

COUNT(*)
- 功能： 统计查询结果集中的总行数。
- 计数方式： 它计算所有行，不管该行中的列是否包含 NULL 值。即使整行所有列都是 NULL，COUNT(*) 也会将其计入。
- 性能： 在大多数现代 MySQL 版本（尤其是 InnoDB 存储引擎）中，COUNT(*) 通常经过高度优化。MySQL 知道 COUNT(*) 只需要行数，而不需要检查任何具体的列值。这是获取表总行数或分组行数的推荐方式。
- 示例：
```
-- 统计 `users` 表中的总用户数
SELECT COUNT(*) FROM users;
-- 统计每个部门 (`dept_id`) 的员工数量
SELECT dept_id, COUNT(*) AS employee_count
FROM employees
GROUP BY dept_id;
```
COUNT(expression)
- 功能： 统计表达式 expression 计算结果为非 NULL 值的行数。
- 计数方式： 对每一行计算给定的表达式 (expression)。如果表达式的结果是 非 NULL，则计数加 1；如果结果是 NULL，则不计入。
- expression 可以是：
  - 一个列名 (COUNT(column_name))：统计该列中非 NULL 值的数量。这是最常见的使用方式。
  - 一个常量 (COUNT(1), COUNT('abc'))：因为常量永远是非 NULL 的，所以 COUNT(1) 或 COUNT('任何常量') 的行为几乎总是等同于 COUNT(*)，统计总行数。现代 MySQL 优化器通常会将 COUNT(1) 转换为 COUNT(*) 来执行。
  - 一个表达式 (COUNT(UPPER(name)), COUNT(price * quantity))：先计算表达式，然后判断结果是否为 NULL。
- 性能： 如果 expression 是一个列名，MySQL 需要检查该列的值是否为 NULL。如果该列没有索引，对于大表来说，这可能比 COUNT(*) 稍慢一些（因为 COUNT(*) 可以利用存储引擎的内部优化）。如果 expression 是常量，性能通常与 COUNT(*) 相当。
- 示例：
```
-- 统计 `users` 表中设置了邮箱 (`email` 列非 NULL) 的用户数
SELECT COUNT(email) FROM users;
-- 统计 `orders` 表中总金额 (`total_amount`) 大于 100 的订单数量 (假设 total_amount 可为 NULL)
SELECT COUNT(total_amount > 100) FROM orders;
-- 注意：`total_amount > 100` 的结果是布尔值 (TRUE, FALSE, 或 NULL)。在 MySQL 中，TRUE=1, FALSE=0, NULL=NULL。所以 COUNT 只会计入结果为 TRUE (1) 的非 NULL 行。
-- 更常见的写法是结合 WHERE: SELECT COUNT(*) FROM orders WHERE total_amount > 100;
-- 统计 `products` 表中 `name` 字段非 NULL 的产品数量 (等同于 COUNT(name))
SELECT COUNT(*) FROM products WHERE name IS NOT NULL; -- 另一种写法
```
COUNT(DISTINCT expression)
- 功能： 统计表达式 expression 计算结果中不同（唯一、去重后）的非 NULL 值的数量。
- 计数方式： 首先计算所有行中 expression 的值，然后去除结果集中的 NULL 值，最后对剩下的非 NULL 值进行去重，统计去重后的数量。
- 性能： 这是性能开销最大的一种形式，因为它涉及到对所有非 NULL 值进行排序或使用哈希表来去重。对于大表，尤其是在没有合适索引的情况下，可能会比较慢。
- 示例：
```
-- 统计 `users` 表中来自不同城市 (`city`) 的数量 (忽略 city 为 NULL 的行)
SELECT COUNT(DISTINCT city) FROM users;
-- 统计 `orders` 表中每个客户 (`customer_id`) 下了多少种不同商品 (`product_id`) 的订单
SELECT customer_id, COUNT(DISTINCT product_id) AS unique_products_ordered
FROM orders
GROUP BY customer_id;
```

重要特性与行为

COUNT() 与 NULL：
- COUNT(*)：不关心 NULL，统计所有行。
- COUNT(expression)：只统计 expression 计算结果为非 NULL 的行。
- COUNT(DISTINCT expression)：只统计 expression 计算结果为非 NULL 的值，并且对这些非 NULL 值进行去重计数。
聚合函数： COUNT() 是一个聚合函数。它通常作用于一组行（可能是整个表，或者 GROUP BY 定义的每个组），并返回一个单一的汇总值。
与 WHERE 结合： WHERE 子句在聚合发生之前过滤行。COUNT() 只会计入通过 WHERE 条件过滤后的行。
```
SELECT COUNT(*) FROM orders WHERE order_date >= '2024-01-01'; -- 统计2024年及之后的订单数
```
与 GROUP BY 结合： GROUP BY 将数据分成多个组，COUNT() 会为每个组单独计算行数或非 NULL 值的数量。
```
SELECT status, COUNT(*) AS order_count FROM orders GROUP BY status; -- 统计每种订单状态的数量
```
与 HAVING 结合： HAVING 子句在聚合发生之后过滤分组结果。它基于聚合结果（如 COUNT(*)）来筛选哪些分组应该出现在最终结果中。
```
SELECT country, COUNT(*) AS user_count
FROM users
GROUP BY country
HAVING user_count > 100; -- 只显示用户数超过100的国家
```
COUNT() 返回类型： COUNT() 函数返回一个 BIGINT 类型的值（64位整数）。即使结果很小，返回类型也是 BIGINT。
没有匹配行： 如果查询没有匹配任何行（例如，WHERE 条件太严格），COUNT() 将返回 0。COUNT(DISTINCT ...) 在没有非 NULL 值时也返回 0。
性能考虑（MyISAM vs InnoDB）：
- MyISAM： 对于 COUNT(*) 且没有 WHERE 条件的查询（如 SELECT COUNT(*) FROM myisam_table;），MyISAM 引擎会极其快速地返回结果，因为它直接在表的元数据中存储了精确的总行数。
- InnoDB： InnoDB 引擎不存储精确的总行数在元数据中。它需要扫描表（或最小的可用索引）来计算 COUNT(*)（即使没有 WHERE 子句）。这是因为 MVCC（多版本并发控制）机制使得同时存在的事务可能看到表中不同版本的行数。因此，对于非常大的 InnoDB 表，SELECT COUNT(*) FROM huge_innodb_table; 可能会比较慢。估算行数可以考虑查询 information_schema.TABLES 表的 TABLE_ROWS 列（注意这是估算值，不精确！），或者使用计数器表、缓存等技术。

如何选择使用哪种形式？

需要总行数？ ➡️ 优先使用 COUNT(*)。它是语义最清晰（计算行数），且在 MySQL 中通常性能最佳。
需要统计特定列的非 NULL 值数量？ ➡️ 使用 COUNT(column_name)。
需要统计满足特定条件的行数？ ➡️ 结合 WHERE 子句使用 COUNT(*) (推荐) 或 COUNT(1)。
- SELECT COUNT(*) FROM table WHERE condition;
需要统计某一列中不同值的数量（去重计数）？ ➡️ 使用 COUNT(DISTINCT column_name)。
需要统计满足某个表达式条件的行数？ ➡️ 使用 COUNT(expression)，或者更常见的，使用 COUNT(*) + WHERE 子句。
- SELECT COUNT(IF(score > 90, 1, NULL)) FROM students; -- 统计分数大于90的学生数
- 等价于 SELECT COUNT(*) FROM students WHERE score > 90; (通常更推荐后者)