当前位置：首页 > news >正文

【机器学习】必会算法模型之：一文掌握密度聚类，建议收藏。

news 2025/8/26 14:35:50

密度聚类

1、引言
2、密度聚类
- 2.1 定义
- 2.2 核心原理
- 2.3 实现步骤
- 2.4 算法公式
- 2.5 代码示例
3、总结

1、引言

在机器学习的无监督学习领域，聚类是一项基础而重要的任务。

聚类算法通过将数据点分组，使同一组内的数据点具有更大的相似性，而组间差异更大。

虽然 k-means 和层次聚类等经典算法被广泛应用，但它们对处理非球形簇和噪声点时表现欠佳。

密度聚类（Density-Based Clustering）算法因其能有效识别任意形状的簇并处理噪声点而备受关注。

接下来，跟着小鱼一起，来了解密度聚类算法模型。

2、密度聚类

2.1 定义

密度聚类是一种基于数据点密度的聚类方法。

通过识别数据点簇中高密度区域，将彼此相近的数据点归为一类，同时能够将低密度区域内的点标记为噪声。

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是密度聚类中最具代表性的方法之一。

2.2 核心原理

密度聚类的核心思想是通过计算数据点周围的密度来识别簇。

DBSCAN 算法设定了两个重要参数：邻域半径 $\epsilon )$ 和最小数据点数 $(min Pt s)$ 。

算法的流程如下：

核心点：一个点若其 $\epsilon )$ 邻域内包含至少 $(min Pt s)$ 个点，则该点为核心点。
密度可达：如果一个点在核心点的 $\epsilon )$ 邻域内，那么这个点是密度可达的。
簇形成：通过核心点及其密度可达的点进行聚类。如果两个核心点之间存在一条密度可到路径，则它们属于同一个簇。
噪声点：任何不属于任何簇的数据点被标记为噪声点。

2.3 实现步骤

DBSCAN 算法的具体实现步骤，如下：

初始化：标记所有点为未访问。
访问数据点：随机选择一个未访问过的数据点，并将其邻域内的所有点标记为访问过。
簇扩展：如果该点为核心点，通过递归方式将所有密度可达的点聚为同一个簇。
重复：重复步骤2和3，直到所有点被访问。

在这里插入图片描述

2.4 算法公式

DBSCAN 主要用到以下几个公式：

1、距离计算公式，常用欧几里得距离：
$\sqrt{\sum_{i=1}^{n}(p_i - q_i)^2} ]$
2、 $\epsilon )-邻域$ :
$N_{\epsilon}(p) = {q \in D | d(p, q) \leq \epsilon } ]$
3、密度可达和核心点判断：
$|N_{\epsilon}(p)| \geq minPts ]$

2.5 代码示例

# -*- coding:utf-8 -*-
# @Time   : 2024-07-20
# @Author : Carl_DJimport numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN# 生成样本数据
X, y = make_moons(n_samples=300, noise=0.05, random_state=0)# 使用 DBSCAN 进行密度聚类
dbscan = DBSCAN(eps=0.2, min_samples=5)
y_pred = dbscan.fit_predict(X)# 绘制聚类结果
plt.figure(figsize=(10, 6))
plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', marker='o')
plt.title('DBSCAN Clustering')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()

解析

生成数据：使用 make_moons 函数生成两个半环形状的数据集，这种数据形状适合密度聚类算法处理。
初始化 DBSCAN：设置邻域半径 ( \epsilon ) 为 0.2，最小数据点数 ( minPts ) 为 5。
进行聚类 ：使用 fit_predict 方法进行聚类，获取聚类标签 y_pred。
绘制结果：将聚类结果可视化，不同的颜色表示不同的簇，能够清晰看到簇的边界和噪声点。

在这里插入图片描述

3、总结

密度聚类（DBSCAN）作为一种基于密度的聚类算法，能够有效地识别任意形状的簇并处理噪声点。与传统的聚类算法相比，密度聚类在处理噪声和非球形簇时表现尤为出色。通过设定合适的参数 $\epsilon )$ 和 $(min Pt s)$ ，我们可以对复杂的数据集进行准确的聚类。掌握密度聚类的原理和实现方法，对于从事数据分析和机器学习的研究人员和工程师来说十分重要。希望本文能够帮助读者更好地理解和应用密度聚类算法。

我是小鱼：