当前位置: 首页 > news >正文

【西瓜书】9.聚类

  • 聚类任务是无监督学习的一种
  • 用于分类等其他任务的前驱过程,作为数据清洗,基于聚类结果训练分类模型
1.聚类性能度量(有效性指标)
  • 分类任务的性能度量有错误率、精度、准确率P、召回率R、F1度量(P-R的调和平均)、TPR、FPR、AUC
  • 回归任务的性能度量有均方误差MSE、根均方误差RMSE、平均绝对误差MAE、R-Squared
  • 聚类任务的性能度量分为三个外部指标+两个内部指标

外部指标:和一个参考模型比

        若对m个样本聚类,分成了k个簇,两两样本比较,可组为m(m-1)/2组,每组要么位于相同簇(1)要么位于不同簇(0),对参考模型做同样操作,我们希望两个模型对于m(m-1)/2组样本组合划分的结果都为1或都为0的尽可能多,则分为如下三个外部指标(都是越大越好):

  • Jaccard系数:JC=a/(a+b+c)(在两个模型中都为同一个簇的尽可能多)
  • FM指数:FMI=sqrt(a/(a+b)+a/(a+c))
  • Rand指数:RI=(a+d)/(a+b+c+d)(在两个模型中都为同一个簇或都不为同一个簇的尽可能多)

内部指标:内部簇间距离大,簇内距离小

  • DB指数:越小越好
  • Dumn指数:越大越好
2.距离计算

2.1.连续属性:具有非负性、直递性、对称性、同一性

计算闵可夫斯基距离:

  • 曼哈顿距离:绝对值相加
  • 欧氏距离:绝对值平方相加开根号

2.2.离散属性: VDM法(没太理解不确定)

3.原型聚类
3.1.k-means


3.2.DBSCAN密度聚类

        由核心对象出发,找到与该核心对象密度可达的所有样本形成一个聚类簇。

(1)概念:邻域参数 eps (每个点的方圆eps内有几个样本)和 Minpts(eps的一个分界点)

(2)样本点之间的三种关系:

密度可达和密度相连区别在于方向不同:

  • x1—>x2—>x3的x1到x3是密度可达
  • x1<—x2—>x3的x1和x3是密度相连

其中密度可达是不一定对称的,密度相连是对称的,如下题目:

x1到x2直接密度可达;x1到x3密度可达;x3与x4密度相连(通过x1)


3.3.AGNES层次聚类 

 自底向上聚合的层次聚类算法,它先会将数据集中的每个样本看作一个初始簇,然后在算法运行的每一步中找出距离最近的两个簇进行合并,直至达到预设的簇的数量。

http://www.lryc.cn/news/368555.html

相关文章:

  • 使用jemalloc实现信号驱动的程序堆栈信息打印
  • 树的4种遍历
  • 深入探讨5种单例模式
  • SPOOL
  • 挑战绝对不可能:再证有长度不同的射线
  • 【机器学习】Python与深度学习的完美结合——深度学习在医学影像诊断中的惊人表现
  • MapStruct的用法总结及示例
  • redis 05 复制 ,哨兵
  • 强大的.NET的word模版引擎NVeloDocx
  • MySQL中所有常见知识点汇总
  • Flink 基于 TDMQ Apache Pulsar 的离线场景使用实践
  • 远程访问及控制
  • 【代码随想录训练营】【Day 44】【动态规划-4】| 卡码 46, Leetcode 416
  • html5实现个人网站源码
  • 【内存管理】内存布局
  • 软件试运行方案(Word)
  • Redis原理篇——哨兵机制
  • web前端的MySQL:跨领域之旅的探索与困惑
  • Postgresql源码(135)生成执行计划——Var的调整set_plan_references
  • Python魔法之旅专栏(导航)
  • Python第二语言(五、Python文件相关操作)
  • Vue3 组合式 API:依赖注入(四)
  • Vue如何引入ElementUI并使用
  • VS2019 QT无法打开 源 文件 “QTcpSocket“
  • 【Golang】Map 稳定有序遍历的实现与探索:保序遍历之道
  • 使用Nextjs学习(学习+项目完整版本)
  • KUKA机器人KRC5控制柜面板LED显示
  • 为什么选择Python作为AI开发语言
  • 【算法篇】求最长公共前缀JavaScript版本
  • 搭建RocketMQ主从异步集群