MATLAB算法实战应用案例精讲-【数模应用】分层聚类(附MATLAB、python和R语言代码实现)
目录
前言
几个高频面试题目
什么情况下选择分层聚类,什么情况下选择K-mean聚类呢?两种模型的好坏如何比较?
算法原理
SPSSAU
案例分析
SPSSPRO
1、作用
2、输入输出描述
3、案例示例
4、案例数据
5、案例操作
6、输出结果分析
7、注意事项
8、模型理论
分层聚类的优缺点
应用案例
代码实现
MATLAB
R语言
python
前言
在数据科学领域,对未标记的数据进行聚类通常是非常有用的。从搜索引擎结果的分组到基因型分类,再到银行异常检测,聚类已经成为数据科学家们的工具包中必不可少的一部分。
层次聚类是数据科学中最流行的聚类方法之一,这是有充分的理由的:
- 易于使用,几乎不需要参数调整
- 创建有意义的分类法
- 适用于高维数据
- 不需要事先知道簇的数量
- 每次创建相同的簇
相比之下,像K-Means这样的划分方法则需要数据科学家猜测聚类的数量,非常流行的基于密度的方法DBSCAN则需要围绕密度计算半径(ε)和最小邻域大小的一些参数,而高斯混合模型对潜在的聚类数据分布做出了强有力的假设。
对于层次聚类算法,您只需要指定一个距离度量指标即可使用。
从高级视角来看,层次聚类遵循以下算法:
- 确定所有簇对之间的簇距离(每个簇从一个点开始);
- 合并彼此最接近的两个群集;
- 重复上述步骤。
结果是:生成一个美丽的树状图,然后可以根据领域专业知识进行划分应用。
在生物学和自然语言处理等领域,(细胞、基因或单词的)簇自然遵循等级关系。因此,层次聚类能够实现对最终聚类截止点的更自然和数据驱动的选择。