当前位置: 首页 > news >正文

CAU数据挖掘 第五章 聚类问题

基本概念

在这里插入图片描述
性质:
在这里插入图片描述
应用:
在这里插入图片描述

划分聚类

在这里插入图片描述

k-means算法( 基于质心的技术)

用于划分的k-means算法, 其中每个簇中心都用簇中所有对象的均值来表示。
在这里插入图片描述

优缺点

改进

k-medoids算法( 基于代表对象的技术)

在这里插入图片描述
PAM是 k-medoids算法 的算法之一
性能分析:
在这里插入图片描述
CLARA方法-大数据集合-取样
在这里插入图片描述

层次聚类算法

在这里插入图片描述
通过建树或者拆树的方法进行聚类

AGNES算法

由下而上的聚类
在这里插入图片描述

DIANA算法

在这里插入图片描述
如果要分出k个聚类,则每次从旧聚类(最开始的大聚类)中选出中心点进行聚类,选k - 1次

BIRCH算法

提取每个点的聚类特征( Clustering Feature, CF)建立聚类特征树( Clustering Feature Tree, CF树),通过树划分的叶子节点簇进行聚类,从而提高性能。
在这里插入图片描述
在这里插入图片描述
CF树:
在这里插入图片描述
注意,叶子结点是CF簇
如何建树:
在这里插入图片描述
如何分裂:
叶节点阈值(T)为3,则下图中叶节点分裂
在这里插入图片描述
在这里插入图片描述
内部节点阈值(L)为3,图中为4,发生分裂
在这里插入图片描述
在这里插入图片描述

密度聚类

只要邻近区域的密度( 对象或数据点的数目) 超过某个阀值, 就把它加到与之相近的聚类中。
也就是说, 对给定类中的每个数据点, 在一个给定范围的区域中必须至少包含某个数目的点。

DBSCAN

几个重要概念:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
算法流程:
在这里插入图片描述
缺点:

  • 对参数敏感,设置不同的参数,聚类效果差异大
  • 只能发现密度相似的类

OPTICS算法

通过点排序识别聚类结构。
思想:计算一个点周围的点到这个点的可达距离,并进行排序,直到算完所有可以到达的点;再用没有计算的点计算周围可以到达的点的距离,如此重复直到所有点算完。

核心距离与可达距离

在这里插入图片描述

距离排序

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
将排序后的队列进行数据可视化:
在这里插入图片描述

DENCLUE算法: 影响函数

网格聚类

STING算法-统计信息网格

在这里插入图片描述

在这里插入图片描述

WaveCluster算法

在这里插入图片描述
在这里插入图片描述
流程:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

模型聚类

模型聚类主要有两类: 统计学方法( EM和COBWEB算法) 和神经网络方法( SOM算法) 。

EM算法

在这里插入图片描述

COBWEB算法

SOM算法

模糊聚类

聚类估计

估计聚类趋势

霍普金斯统计量
即判断数据是否可聚类
在这里插入图片描述
计算原理:
在这里插入图片描述
可以看到当样本点与实际点距离很短,均匀点与实际点很远时,H偏大,数据集更又可能聚类。

确定簇数

简单的经验方法

在这里插入图片描述

肘方法

在这里插入图片描述

测定聚类质量

在这里插入图片描述

http://www.lryc.cn/news/588986.html

相关文章:

  • 【canal+mysql+example+数据验证测试】
  • Python 内置函数random
  • 行为模式-状态模式
  • 小智完整MCP交互流程(以调节音量为例)
  • 网络安全职业指南:探索网络安全领域的各种角色
  • 使用llama-factory进行qwen3模型微调
  • elasticsearch 下载/安装
  • MaxKB使用笔记【持续ing】
  • python+selenium UI自动化初探
  • JAVA高级第一章 集合框架和泛型(一)
  • Ubuntu18.04 系统重装记录
  • 写作词汇积累(A):自洽、自恰、恰如其分、恰当
  • MQ2烟雾传感器模块(第九天)
  • C++学习笔记五
  • 《时间简史》:窥探宇宙的奥秘
  • IOS 18下openURL 失效问题
  • 032_API参考文档
  • 前端面试专栏-工程化:25.项目亮点与技术难点梳理
  • 区块链的三种共识机制——PoW、PoS和DPoS原理
  • 数据库第二次作业
  • 【Python练习】044. 编写一个函数,实现快速排序算法
  • 本地电脑安装Dify|内网穿透到公网
  • 开源AI应用开发平台Dify系列(一)
  • YOLO融合CFFormer中的FeatureCorrection_s2c模块
  • 多租户SaaS系统中设计安全便捷的跨租户流程共享
  • 遥感数据与作物生长模型同化及在作物长势监测与估产中的应用
  • 弗兰肯斯坦式的人工智能与GTM策略的崩溃
  • 运维效率提升利器:grep、sed、awk详解与实战练习指南
  • (LeetCode 面试经典 150 题) 383. 赎金信 (哈希表)
  • AR眼镜:重塑医学教育,开启智能教学新时代