当前位置：首页 > news >正文

python实现k_means聚类

news 2025/9/18 14:51:01

K-Means算法是将一组N个样本的特征矩阵X划分为K个无交集的簇，直观上来看是簇是一组一组聚集在一起的数据，在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。

簇中所有数据的均值通常被称为这个簇的“质心”(Centroids)。在一个二维平面中，一簇数据点的质心的横坐标就是这一簇数据点的横坐标的均值，质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高维空间。

算法实现：

一、随机取n个点，即想要分类数目

二、将当前数据每个点都与取到的n个点进行作差，将差值最小的分为一类

三、将分好类的结果取出计算均值，取出每个类中和均值距离最小的值，将其做为新的中心点

四、重复上述步骤，直到最终分成的簇内结果不再发生变化（在当前的算法里，我们连续验证三次，即在三次内，结果不再发生变化，迭代就会停止）

#k均值计算

import numpy as np

import pandas as pd

import random

import math

def data():

rand_value = [random.randint(1,10000) for i in range(10000)]

# print(rand_value)

# rand_value = [63, 23, 93, 52, 33, 84, 34, 91, 52, 68, 64, 4, 3, 58, 37, 76, 75, 52, 49, 34, 91, 29, 67, 42, 97, 69, 99, 9, 15,

# 44, 12, 46, 86, 92, 10, 67, 46, 93, 49, 29, 93, 95, 60, 33, 30, 63, 24, 45, 26, 47, 12, 62, 50, 54, 13, 62, 40, 39,

# 32, 2, 92, 34, 20, 72, 68, 37, 88, 32, 84, 28, 88, 85, 5, 88, 56, 30, 5, 3, 43, 9, 13, 62, 44, 11, 90, 97, 80, 34,

# 12, 90, 56, 54, 87, 59, 20, 51, 58, 54, 29, 32]

return rand_value

#进行计算，并返回质心及详细信息

def k_mean(data_list,k,rand_choice):

# rand_choice = [random.choice(data_list) for i in range(k)]

temp_dict = {}

for i in range(len(data_list)):

temp_list = []

for j in range(len(rand_choice)):

#解决符号差异带来的影响

temp_list.append(abs(abs(data_list[i]) - abs(rand_choice[j])))

insert_index = temp_list.index(min(temp_list))

if temp_dict.get(rand_choice[insert_index]):

temp_dict[rand_choice[insert_index]].append(data_list[i])

else:

temp_dict[rand_choice[insert_index]] = [data_list[i]]

return temp_dict

#输出距离均值最近的点，返回新的质心及中心点

def min_distince(data_dict):

k_list = []

k_keys = list(data_dict.keys())

for j in range(len(k_keys)):

data_list = data_dict[k_keys[j]]

mean_value = sum(data_list)/len(data_list)

for i in range(len(data_list)):

if i == 0:

distance_value = abs(data_list[i] - mean_value)

s = 0

# distance_list.append(distance_value)

else:

if distance_value > abs(data_list[i] - mean_value):

s = i

distance_value = min(distance_value,abs(data_list[i] - mean_value))

k_list.append(data_list[s])

# distance_list.append(distance_value)

return k_list

def iteration(source_data,k):

iter_num = 0

end_list = []

if len(source_data) < k:

print('需要计算的数据量少于要分类的数据量，请检查数据源\n')

else:

while True:

iter_num += 1

print('迭代次数%d'%iter_num)

if iter_num == 1:

data_dict = k_mean(source_data,k,[random.choice(source_data) for i in range(k)])

end_list.append(data_dict)

# print(data_dict)

result = min_distince(data_dict)

# result = min_distince(k_mean(source_data,k,[random.choice(source_data) for i in range(k)]))

else:

data_dict = k_mean(source_data,k,result)

end_list.append(data_dict)

# print(data_dict)

result = min_distince(data_dict)

if len(end_list) == 4:

del end_list[0]

if end_list[0] == end_list[1] and end_list[1] == end_list[2]:

print(data_dict)

break

if __name__ == '__main__':

source_data = data()

iteration(source_data,5)

查看全文

http://www.lryc.cn/news/34100.html

【批处理脚本】-3.3-exit命令详解

如果读了我2011年求职前端开发的酸爽经历，希望你可以鼓起勇气继续向前

PTA：L1-016 查验身份证、L1-017 到底有多二、L1-018 大笨钟（C++）

springboot工厂模式解决if_else流程和问题点解决

如何避免缓存击穿？使用GO语言实现sliglefight

【浅学Java】MySQL索引七连炮

扬帆优配|昔日白马股濒临退市，却6天5涨停！ST股突然集体爆发

Git 基础（一）—— Git 的安装及其配置

什么是信息安全风险评估？企业如何做？

HBase---idea操作Hbase数据库并且映射到Hive

剑指 Offer 61 扑克牌中的顺子

Spring 响应式编程-读书笔记

CI流水线的理解

OpenStack手动分布式部署Nova【Queens版】

centos7 oracle19c安装 ORA-01012: not logged on

山东小巨人申报条件

手写中实现并学习ahooks——useRequest

[手写OS]动手实现一个OS 之准备工作以及引导扇区

JVM实战OutOfMemoryError异常

C++虚函数操作指南

Mybatis-Plus分页插件

Selenium Webdriver options的实用参数设置

代码随想录算法训练营第七天|454.四数相加II 、 383. 赎金信、 15. 三数之和、18. 四数之和

详解抓包原理以及抓包工具whistle的用法

【C++】反向迭代器

（蓝桥真题）扫描游戏（计算几何+线段树二分）

面试官：什么是双亲委派模型？如何打破它？

自建服务器系列- DDNS配置

vue中使用axios简单封装用法，axios报错the request was rejected because no multipart boundar

Leetcode.1220 统计元音字母序列的数目

相关文章：