当前位置: 首页 > news >正文

【机器学习西瓜书学习笔记——聚类】

机器学习西瓜书学习笔记【第九章】

  • 第九章 聚类
      • 9.1 聚类任务
      • 9.2 性能度量
        • 两类指标
      • 9.3距离计算
        • 基本性质
        • 属性
          • 有序属性
          • 无序属性
        • 混合距离
        • 加权距离
      • 9.4 原型聚类
        • K-MEANS聚类算法
          • 步骤
          • 优势
          • 劣势
        • 学习向量量化
        • 高斯混合聚类
          • 步骤
          • 难点
          • 例子
          • EM思想的体现
          • 小结
      • 9.5 密度聚类
      • 9.6 层次聚类

第九章 聚类

9.1 聚类任务

簇:给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。

9.2 性能度量

两类指标

外部指标:将聚类结果与某个"参考模 型" 进行比较

  • Jaccard 系数

  • FM指数

  • Rand指数

内部指标:直接考察聚类结果而不利用任何参考模型

  • DB指数

  • Dunn指数(DI)

9.3距离计算

基本性质

非负性

统一性

对称性

直递性

属性
有序属性
  • 欧氏距离:
  • 曼哈顿距离:
  • 切比雪夫距离:
无序属性

混合距离
加权距离

9.4 原型聚类

K-MEANS聚类算法
步骤

①我们选择一些类/组来使用并随机地初始化它们各自的中心点。

②每个数据点通过计算点和每个组中心之间的距离进行分类,然后将这个点分类为最接近它的组。

③基于这些分类点,我们通过取组中所有向量的均值来重新计算组中心。

④对一组迭代重复这些步骤。

优势

速度非常快

劣势

①必须选择有多少组/类。

②从随机选择的聚类中心开始,因此在不同的算法运行中可能产生不同的聚类结果。因此,结果可能是不可重复的,并且缺乏一致性。

学习向量量化

和 K-means 的不同:

  • 每个样例有类别标签,即 LVQ 是一种监督式学习;
  • 输出不是每个簇的划分,而是每个类别的原型向量;
  • 每个类别的原型向量不是简单的均值向量,考虑了附近非 / 同样例的影响。

高斯混合聚类
步骤
  1. 初始化 高斯混合成分的个数 k ,假设高斯混合分布模型参数 α(高斯混合系数) μ (均值) , Σ(协方差矩阵)
  2. 分别计算每个样本点的 后验概率 (该样本点属于每一个高斯模型的概率);
  3. 迭代 α μ , Σ;
  4. 重复第二步直到收敛。
难点
  • 后验概率 (该样本点属于每一个高斯模型的概率)的计算:
      • 上述公式由 7.18 相减化简而来
  • 怎样迭代 α μ , Σ;
    • α ——通过样本加权平均值来估计
    • Σ ——通过样本加权平均值来估计
    • μ ——由样本属于该成分的平均后验概率确定
例子

EM思想的体现

小结

9.5 密度聚类

密度聚类:根据样本分布的紧密程度确定。密度聚类算法从样本密度的角度考察样本之间的连接性,并基于可连接样本不断扩展聚类簇。

9.6 层次聚类

在不同层次对数据集进行划分,形成树形的聚类结构。

聚集策略:自底向上

分拆策略:自顶向下

http://www.lryc.cn/news/416431.html

相关文章:

  • MATLAB(8)深度变化模型
  • mp3格式转换器哪个好用?汇总七款音频格式转换方法(无损转换)
  • 移行前的复盘:CodeCommit 的重要地位分析
  • Java中等题-括号生成(力扣)
  • Flink 实时数仓(八)【DWS 层搭建(二)流量域、用户域、交易域搭建】
  • gitlab-runner /var/run/docker.sock connect permission denied
  • 网络安全 - 应急响应检查表
  • AD常用PCB设计规则介绍 (详细版)
  • mysql主从服务配置
  • Redis基础总结、持久化、主从复制、哨兵模式、内存淘汰策略、缓存
  • Java与Python优劣势对比:具体例子与深入分析
  • C++内存泄漏介绍
  • C++分析红黑树
  • mysql线上查询之前要性能调优
  • GPIO输出控制之LED闪烁、LED流水灯以及蜂鸣器应用案例
  • 体系结构论文导读(三十四):Design of Reliable DNN Accelerator with Un-reliable ReRAM
  • WebStock会话
  • 5_现有网络模型的使用
  • 软件安全测试报告内容和作用简析,软件测试服务供应商推荐
  • 算法板子:树形DP、树的DFS——树的重心
  • 在C语言中,联合体或共用体(union )是一种特殊的数据类型,允许在相同的内存位置存储不同的数据类型。
  • MS2201以太网收发电路
  • 乐乐音乐Kotlin版
  • C语言——预处理和指针
  • iptables防火墙(一)
  • (leetcode学习)50. Pow(x, n)
  • QT 5.12.0 for Windows 安装包 QT静态库 采用源码静态编译生成
  • 【生成式人工智能-三-promote 神奇咒语RL增强式学习RAG】
  • C++连接oracle数据库连接字符串
  • 判断字符串是否接近:深入解析及优化【字符串、哈希表、优化过程】