当前位置: 首页 > news >正文

【机器学习】23. 聚类-GMM: Gaussian Mixture Model

1. 定义和假设

定义:probabilistic clustering(model-base)
假设:数据服从正态分布
在这里插入图片描述

2. 算法内容

我们假设数据是由k个高斯(正态)分布混合生成的。每个分布有2个参数:μ和σ。
一个分布对应一个集群
从u和o的随机初始值开始
在每次估计后,我们计算每个例子属于每个分布(簇)的概率
利用概率,我们重新计算参数,直到它们不变。

案例

假设有20000个数据点,两个高斯分布,两个标准差都是2,使用GMM聚类。

  1. 初始化均值方差。标准差限定了,初始均值即可。随机初始化均值分别为-2和3
  2. 根据贝叶斯计算概率
    在这里插入图片描述
    0.5 是每个分布的权重
  3. 更新均值
    在这里插入图片描述
    新的均值是基于数据点的加权平均值计算的. 权重由每个数据点属于特定分布的概率决定
  4. 迭代和收敛, 重复步骤2和步骤3, 直到μ不再产生变化或变化非常小, 数据点最终分配给概率更高的分布

3. 和K-Means对比

k-means: crisp(hard)-assignment
GMM – probabilistic(soft assignment)
GMM可以看作是k均值的泛化
GMM更灵活。允许椭圆的cluster而不是圆形

http://www.lryc.cn/news/474266.html

相关文章:

  • 深度探索C++对象模型
  • 电脑怎么设置开机密码:保障个人信息安全的第一步
  • MybatisPlus入门(六)MybatisPlus-null值处理
  • 红帽认证有必要考吗?这四大人群推荐考取!
  • 基于SSM+微信小程序的社团登录管理系统(社团1)
  • html中cookie如何存储
  • C++基础三(构造函数,形参默认值,函数重载,单例模式,析构函数,内联函数,拷贝构造函数)
  • Flutter Color 大调整,需适配迁移,颜色不再是 0-255,而是 0-1.0,支持更大色域
  • 如何使用VBA识别Excel中的“单元格中的图片”(2/2)
  • 2024系统架构师---下午题目常考概念
  • 【Linux】从零开始认识五种IO模型 --- 理解五种IO模型,开始使用非阻塞IO
  • Spring Boot 集成阿里云直播点播
  • 舍伍德业务安全架构(Sherwood Applied Business Security Architecture, SABSA)
  • 论可以对抗ai编程的软件开发平台(直接把软件需求描述变成软件的抗ai开发平台)的设计
  • 饿了么数据库表设计
  • Flink处理乱序的数据的最佳实践
  • Android OpenGL ES详解——模板Stencil
  • vscode在cmake config中不知道怎么选一个工具包?select a kit
  • 无人机之无线电监测设备技术篇
  • 【系统架构设计师】预测试卷一:案例分析
  • 一篇文章教会你I2C通信(软件I2C和硬件I2C)以读取MPU6050为例,附STM32代码示例
  • Python实现SPFA算法
  • MYSQL安装(ubuntu系统)
  • Cpp二叉搜索树的讲解与实现(21)
  • 微服务设计模式 — 补偿事务模式(Compensating Transaction Pattern)
  • 20 实战:形状编码、运动补偿和纹理编码的实现(基于python)
  • 区块链-C++挖矿软件XMRIG源码分析
  • C语言指针的介绍
  • 八大排序算法——堆排序
  • U盘文件不翼而飞?这些数据恢复工具帮你找回!