当前位置: 首页 > news >正文

K-means聚类算法详解与实战

一、引言

K-means聚类算法是一种无监督学习算法,旨在将数据点划分为K个不同的聚类或群组,使得同一聚类内的数据点尽可能相似,而不同聚类间的数据点尽可能不同。在图像处理、数据挖掘、客户细分等领域有着广泛的应用。本文将通过图文结合的方式,详细介绍K-means聚类算法的原理、步骤,并通过Python代码展示其实现过程。

二、K-means算法原理

K-means算法基于迭代的思想,通过不断迭代优化聚类结果,最终将数据划分为K个聚类。算法的主要步骤如下:

  1. 初始化:随机选择K个数据点作为初始聚类中心(质心)。
  2. 分配数据点到最近的质心:对于每个数据点,计算其与所有质心的距离,并将其分配给距离最近的质心所对应的聚类。
  3. 更新质心:对于每个聚类,计算其内部所有数据点的均值,并将该均值设为新的质心。
  4. 迭代:重复步骤2和3,直到达到预设的迭代次数或聚类结果不再发生显著变化为止。

三、K-means算法实现

1. 数据准备

首先,我们需要准备一些数据来进行聚类。这里我们使用sklearn库中的make_blobs函数生成模拟数据。

from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt# 生成模拟数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)# 绘制原始数据分布
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.show()

2. 使用sklearn的K-means进行聚类

接下来,我们使用sklearn库中的KMeans类来进行K-means聚类。

from sklearn.cluster import KMeans# 设置聚类数量为4
kmeans = KMeans(n_clusters=4)# 拟合数据
kmeans.fit(X)# 获取聚类结果和质心位置
labels = kmeans.labels_
centers = kmeans.cluster_centers_# 绘制聚类结果和质心位置
plt.scatter(X[:, 0], X[:, 1], c=labels, s=50, cmap='viridis')
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5)
plt.show()

3. K-means算法性能评估

对于K-means聚类结果的评估,常用的指标有轮廓系数(Silhouette Coefficient)和Calinski-Harabasz Index等。这里我们使用轮廓系数来评估聚类效果。

from sklearn.metrics import silhouette_score# 计算轮廓系数
score = silhouette_score(X, labels)
print("Silhouette Coefficient: ", score)

四、总结

K-means聚类算法是一种简单而有效的无监督学习算法,适用于数据探索和初步的数据分析。通过调整聚类数量K和迭代次数等参数,我们可以得到不同的聚类结果。然而,K-means算法也有一些局限性,例如对初始质心的选择敏感、对噪声和异常值敏感等。在实际应用中,我们需要根据具体的数据特点和需求选择合适的聚类算法。

http://www.lryc.cn/news/379196.html

相关文章:

  • python数据分析-糖尿病数据集数据分析预测
  • 【前端】 nvm安装管理多版本node、 npm install失败解决方式
  • 第11天:API开发与REST framework
  • 2024 年解锁 Android 手机的 7 种简便方法
  • 利用机器学习重构视频中的人脸
  • 2021数学建模C题目– 生产企业原材料的订购与运输
  • C# OpenCvSharp 图像复制-clone、copyTo
  • 中国投入到终止遗传性疾病的战斗
  • PCL common中常见的基础功能函数
  • 力扣每日一题 6/22 字符串/贪心
  • MCT Self-Refine:创新集成蒙特卡洛树搜索 (MCTS)提高复杂数学推理任务的性能,超GPT4,使用 LLaMa-3 8B 进行自我优化
  • 自制HTML5游戏《开心消消乐》
  • 【C++】平衡二叉树(AVL树)的实现
  • 第一百一十八节 Java面向对象设计 - Java接口
  • Flink nc -l -p 监听端口测试
  • 在IntelliJ IDEA中使用Spring Boot:快速配置
  • django filter 批量修改
  • maven:中央仓库验证方式改变:401 Content access is protected by token
  • 【面试】http
  • 获取泛型,泛型擦除,TypeReference 原理分析
  • springboot 3.x 之 集成rabbitmq实现动态发送消息给不同的队列
  • C++ 代码实现鼠标右键注册菜单,一级目录和二级目录方法
  • SQLite 3 优化批量数据存储操作---事务transaction机制
  • [程序员] 表达的能力
  • rknn转换后精度差异很大,失真算子自纠
  • 【C语言】解决C语言报错:Stack Overflow
  • 【滚动哈希 二分查找】1044. 最长重复子串
  • webid、sec_poison_id、a1、web_session参数分析与算法实现
  • Qt|QWebSocket与Web进行通讯,实时接收语音流
  • 「51媒体」电视台媒体邀约采访报道怎么做?