当前位置: 首页 > news >正文

2|数据挖掘|聚类分析|k-means/k-均值算法

k-means算法

k-means算法,也被称为k-平均或k-均值,是一种得到最广泛应用的聚类算法。

算法首先随机选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复直到准则函数收敛

准则函数试图使生成的结果簇尽可能地紧凑和独立

算法步骤

(1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。

(2) 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。

(3) 计算每一类中中心点作为新的中心点。

(4) 重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点,然后选择运行结果最好的一个。

算法优点

(1)速度快;

(2)计算简便 ;

算法缺点

(1)我们必须提前知道数据有多少类/组;

(2)K-Medians是K-Means的一种变体,是用数据集的中位数而不是均值来计算数据的中心点。;

(3)K-Means对于“噪声”和“孤立点数据”等异常值是敏感的,K-Medians的优势是使用中位数来计算中心点不受异常值的影响;缺点是计算中位数时需要对数据集中的数据进行排序,速度相对于K-Means较慢。

http://www.lryc.cn/news/11027.html

相关文章:

  • 使用和制作动、静态库
  • 【Java基础】023 -- 集合进阶(List、Set、泛型、树)
  • 面试题整理01-集合详解
  • 数据驱动的两阶段分布鲁棒(1-范数和∞-范数约束)的电热综合能源系统研究(Matlab代码实现)
  • ArcGIS网络分析之发布网络分析服务(二)
  • js实现元素样式切换的基本功能
  • java 策略模式 + 工厂模式 实例
  • 本地生成动漫风格 AI 绘画 图像|Stable Diffusion WebUI 的安装和部署教程
  • 华为OD机试 - 异常的打卡记录 | 备考思路,刷题要点,答疑 【新解法】
  • 「机器学习笔记」之深度学习基础概念(基于Pytorch)
  • 概率和似然
  • 前期软件项目评估偏差,如何有效处理?
  • Xline v0.2.0: 一个用于元数据管理的分布式KV存储
  • CompletableFuture
  • 面试不到10分钟就被赶出来了,问的实在是太变态了...
  • 【C++】类与对象 (四)初始化列表 static成员 友元 内部类 匿名对象 拷贝对象时的一些编译器优化
  • 04:进阶篇 - 编译 CTK
  • SQL73 返回所有价格在 3美元到 6美元之间的产品的名称和价格
  • 【Linux 多线程互斥】如何保证锁的原子性(互斥的原理)
  • Android 实现沉浸式全屏
  • 数据分析与SAS学习笔记6
  • 自动化完成1000个用户的登录并获取token并生成tokens.txt文件
  • 2023年全国最新安全员精选真题及答案1
  • NoMachine 输入用户名密码后 闪断 解决办法
  • WebADI - 参数的使用
  • 【OJ】两个圆
  • 一文读懂澳洲医疗:白菜价的药物怎么领?
  • scrum看板视图切换时间线视图做项目管理
  • 10、MySQL查询优化
  • C++模板(一)