当前位置：首页 > news >正文

聚类里面的一些相关概念介绍阐述

news 2025/7/27 13:08:23

一、性能度量

外部指标：聚类结果与某个“参考模型”进行比较；
- $Jaccard$ 系数： $J(h_i,h_j)=\frac{N^{11}}{N^{01}+N^{10}+N^{11}}$ ，其中的 $0,1$ 表示样本是否属于某类簇；
- $FM$ 指数： $FM=\sqrt{\frac{TP}{TP+FP}\times\frac{TP}{TP+FN}}$ ，其中 $TP$ 表示样本在两个聚类结果中都是同一类簇， $FP$ 表示在其中一个聚类结果中同一类簇，在另一结果反之， $FN$ 也是；
- $Rand$ 指数；
内部指标：直接考察聚类结果；
- $DB$ 指数、 $Dunn$ 指数；

二、距离计算

非负性、同一性、对称性、直递性（就是类似三角形两边之和大于第三边的理解，按三个顶点距离来理解）。
闵可夫斯基距离（用于有序属性）、欧氏距离、曼哈顿距离（和数学里面的公式一致）。

三、原型聚类

$k$ 均值算法：将数据划分为 $K$ 个互不重叠的簇，使得同一簇内的数据点尽可能相似，不同簇的数据点尽可能不同，其目标是要最小化簇内平方和：

$\mathrm{WCSS}=\sum^{K}_{i=1}\sum_{x\in C_i}||x-\mu_i||^2$

其中 $K$ 是预设的簇（类别）的数量， $C_i$ 就是第 $i$ 个簇， $\mu_i$ 就是第 $i$ 个簇的质心， $x$ 是数据点。

学习向量量化：目标是找到一组原型向量（每个原型对应一个类别），使得每个原型尽可能靠近其所属类别的样本，以及不同类别的原型尽可能远离彼此；最终分类时，新样本被分配给最近原型对应的类别。
高斯混合聚类：它假设所有数据点是由多个高斯分布（正态分布）混合生成的。与 $K-means$ 等硬聚类算法不同， $GMM$ 允许一个数据点以一定概率属于多个簇，因此更适合处理重叠簇或非球形簇的复杂数据分布。

四、密度聚类

基于数据点空间分布的聚类方法，其核心思想是将高密度区域的数据点划分为同一簇，并识别低密度区域作为簇间的分隔。与K均值等基于距离的算法不同，密度聚类无需预先指定簇数量，且能发现任意形状的簇，同时有效处理噪声和离群点。

五、层次聚类

通过逐层分解或合并数据来构建聚类结构的算法，不需要预先指定簇的数量（ $K$ 值），最终结果可以用树状图直观展示；
凝聚式（自底向上）：
- 初始时，每个数据点视为一个独立的簇；
- 逐步合并距离最近的簇，直到所有点聚为一类；
分裂式（自顶向下）：
- 初始时，所有数据点属于一个簇；
- 递归地分裂簇，直到每个点单独成簇（计算复杂度高，较少使用）；

http://www.lryc.cn/news/600915.html

相关文章：

OpenFeign-远程调用

数据结构二叉树(2)---二叉树的实现

excel删除重复项场景

HarmonyOS中的PX、 VP、 FP 、LPX、Percentage、Resource 详细区别是什么

商汤InternLM发布最先进的开源多模态推理模型——Intern-S1

CUDA杂记--FP16与FP32用途

P2392 kkksc03考前临时抱佛脚

Linux——线程互斥

【RHCSA 问答题】第 13 章访问 Linux 文件系统

PYTHON从入门到实践-16数据视图化展示

卫星通信终端天线对星之：参考星对星

DOM元素添加技巧全解析

单片机CPU内部的定时器——滴答定时器

Linux DNS 服务器正反向解析

Mybatis学习之配置文件（三）

Linux随记（二十一）

变频器实习DAY15

Linux内核设计与实现 - 第13章虚拟文件系统（VFS）

Linux shuf命令随机打乱行顺序

差模干扰共模干扰

利用RAII与析构函数避免C++资源泄漏

kafka的部署和jmeter连接kafka

20250726-2-Kubernetes 网络-Service 定义与创建_笔记

C++/CLI vs 标准 C++ vs C# 语法对照手册

Java 大视界 -- Java 大数据在智能医疗影像数据标注与疾病辅助诊断模型训练中的应用（366）

greenhills编译出错问题

20250726-1-Kubernetes 网络-Service存在的意义_笔记

【Spring AI】大模型服务平台-阿里云百炼

高可用集群KEEPALIVED的详细部署