当前位置: 首页 > news >正文

聚类里面的一些相关概念介绍阐述

一、性能度量

  • 外部指标:聚类结果与某个“参考模型”进行比较;
    • Jaccard 系数: J(h_i,h_j)=\frac{N^{11}}{N^{01}+N^{10}+N^{11}}其中的 0,1 表示样本是否属于某类簇;
    • FM 指数:FM=\sqrt{\frac{TP}{TP+FP}\times\frac{TP}{TP+FN}}其中 TP 表示样本在两个聚类结果中都是同一类簇,FP 表示在其中一个聚类结果中同一类簇,在另一结果反之,FN 也是;
    • Rand 指数
  • 内部指标:直接考察聚类结果;
    • DB 指数、Dunn 指数

二、距离计算

  • 非负性、同一性、对称性、直递性(就是类似三角形两边之和大于第三边的理解,按三个顶点距离来理解)。
  • 闵可夫斯基距离(用于有序属性)、欧氏距离、曼哈顿距离(和数学里面的公式一致)。

三、原型聚类

  • k 均值算法:将数据划分为 K 个互不重叠的簇,使得同一簇内的数据点尽可能相似,不同簇的数据点尽可能不同,其目标是要最小化簇内平方和:

\mathrm{WCSS}=\sum^{K}_{i=1}\sum_{x\in C_i}||x-\mu_i||^2

        其中 K 是预设的簇(类别)的数量,C_i 就是第 i 个簇,\mu_i 就是第 i 个簇的质心,x 是数据点。

  • 学习向量量化:目标是找到一组原型向量(每个原型对应一个类别),使得每个原型尽可能靠近其所属类别的样本,以及不同类别的原型尽可能远离彼此;最终分类时,新样本被分配给最近原型对应的类别。
  • 高斯混合聚类:它假设所有数据点是由多个高斯分布(正态分布)混合生成的。与 K-means 等硬聚类算法不同,GMM 允许一个数据点以一定概率属于多个簇,因此更适合处理重叠簇非球形簇的复杂数据分布。

四、密度聚类

  • 基于数据点空间分布的聚类方法,其核心思想是将高密度区域的数据点划分为同一簇,并识别低密度区域作为簇间的分隔。与K均值等基于距离的算法不同,密度聚类无需预先指定簇数量,且能发现任意形状的簇,同时有效处理噪声和离群点。

五、层次聚类

  • 通过逐层分解或合并数据来构建聚类结构的算法,不需要预先指定簇的数量(K 值),最终结果可以用树状图直观展示;
  • 凝聚式(自底向上):
    • 初始时,每个数据点视为一个独立的簇;
    • 逐步合并距离最近的簇,直到所有点聚为一类;
  • 分裂式(自顶向下):
    • 初始时,所有数据点属于一个簇;
    • 递归地分裂簇,直到每个点单独成簇(计算复杂度高,较少使用);
http://www.lryc.cn/news/600915.html

相关文章:

  • Digit Queries
  • OpenFeign-远程调用
  • 数据结构 二叉树(2)---二叉树的实现
  • excel删除重复项场景
  • HarmonyOS中的PX、 VP、 FP 、LPX、Percentage、Resource 详细区别是什么
  • 商汤InternLM发布最先进的开源多模态推理模型——Intern-S1
  • CUDA杂记--FP16与FP32用途
  • P2392 kkksc03考前临时抱佛脚
  • Linux——线程互斥
  • 【RHCSA 问答题】第 13 章 访问 Linux 文件系统
  • PYTHON从入门到实践-16数据视图化展示
  • 卫星通信终端天线对星之:参考星对星
  • DOM元素添加技巧全解析
  • 单片机CPU内部的定时器——滴答定时器
  • Linux DNS 服务器正反向解析
  • Mybatis学习之配置文件(三)
  • Linux随记(二十一)
  • 变频器实习DAY15
  • Linux内核设计与实现 - 第13章 虚拟文件系统(VFS)
  • Linux shuf命令随机打乱行顺序
  • 差模干扰 共模干扰
  • 利用RAII与析构函数避免C++资源泄漏
  • kafka的部署和jmeter连接kafka
  • 20250726-2-Kubernetes 网络-Service 定义与创建_笔记
  • C++/CLI vs 标准 C++ vs C# 语法对照手册
  • Java 大视界 -- Java 大数据在智能医疗影像数据标注与疾病辅助诊断模型训练中的应用(366)
  • greenhills编译出错问题
  • 20250726-1-Kubernetes 网络-Service存在的意义_笔记
  • 【Spring AI】大模型服务平台-阿里云百炼
  • 高可用集群KEEPALIVED的详细部署