当前位置：首页 > news >正文

Day 22: 复习

news 2025/7/27 5:11:25

机器学习数据处理与降维技术复习总结

前言

经过6天的学习，我们系统地学习了从基础的Numpy数组操作到高级的降维算法，这些内容构成了机器学习数据预处理的重要知识体系。本文将对这一系列学习内容进行全面复习和总结，帮助大家建立完整的知识框架。

Day 16: Numpy数组基础回顾

核心内容总结

Numpy作为Python科学计算的基础库，是我们后续学习的重要基石。通过学习，我们掌握了：

数组创建方法：

简单创建：np.array(), np.zeros(), np.ones(), np.arange()
随机创建：np.random.normal(), np.random.seed()用于结果重现

数组索引技术：

一维数组：基础索引、切片操作、步长切片
二维数组：行列选择、子矩阵提取
三维数组：多维度操作

重要概念理解：
数组和列表的区别不仅在于输出格式（空格分隔vs逗号分隔），更重要的是数组支持向量化运算，这为后续的矩阵运算奠定了基础。

Day 17: 聚类算法深度学习

聚类算法核心原理

聚类是无监督学习的重要分支，其目标是实现高内聚性（簇内相似）和高分离性（簇间差异）。

评估指标体系

我们学习了三个关键评估指标：

轮廓系数（Silhouette Score）：

取值范围：[-1, 1]
接近1表示聚类效果好，接近-1表示可能被错误分类
计算公式结合了簇内凝聚度和簇间分离度

CH指数（Calinski-Harabasz Index）：

取值范围：[0, +∞)
值越大越好，衡量簇间分散度与簇内分散度之比

DB指数（Davies-Bouldin Index）：

取值范围：[0, +∞)
值越小越好，评估簇的紧凑度和分离度

三大聚类算法对比

算法	类型	优点	缺点	适用场景
K-Means	基于距离	简单高效，易解释	需预设k值，对异常值敏感	球形簇，大规模数据
DBSCAN	基于密度	自动确定簇数，处理噪声	参数敏感，高维效果差	任意形状簇，有噪声数据
层次聚类	基于层次	不需预设簇数，提供层次结构	计算复杂度高	小规模数据，需要层次信息

Day 18: 聚类结果解释与特征分析

簇含义推断的两种策略

目标驱动方法：
事先明确关键特征进行聚类，结果具有明确的业务含义。

探索驱动方法：
使用全特征聚类后，通过监督学习模型（如随机森林）+ SHAP值分析来逆向工程出簇的特征重要性，从而为簇赋予实际含义。

SHAP值的应用价值

SHAP值不仅能够量化特征对模型预测的贡献，更重要的是能够帮助我们理解聚类结果的内在逻辑，将无监督学习的结果转化为可解释的业务洞察。

Day 19: 特征筛选技术全览

特征筛选的必要性

在高维数据时代，特征筛选能够：

降低计算复杂度
减少过拟合风险
提高模型可解释性
去除噪声特征

六种筛选方法对比

方差筛选：

原理：保留方差大于阈值的特征
优点：计算简单快速
缺点：不考虑与目标变量的关系

皮尔逊相关系数筛选：

原理：选择与目标变量相关性高的特征
适用：线性关系明显的场景
注意：分类问题需要使用f_classif

Lasso筛选：

原理：L1正则化自动将不重要特征系数压缩为0
优点：同时进行特征选择和模型训练
参数：alpha值需要调优

树模型重要性：

原理：基于决策树的特征重要性
优点：能捕捉非线性关系
实现：使用SelectFromModel配合随机森林

SHAP重要性：

原理：基于博弈论的特征贡献度量
优点：提供更可靠的特征重要性评估
计算：相对耗时但结果更可信

递归特征消除（RFE）：

原理：递归移除最不重要的特征
优点：考虑特征间的相互作用
适用：需要精确控制特征数量的场景

Day 20: SVD分解的理论与实践

SVD分解的数学基础

任意矩阵A可分解为：A = UΣV^T

其中：

U：左奇异向量矩阵（正交矩阵）
Σ：奇异值矩阵（对角矩阵）
V：右奇异向量矩阵（正交矩阵）

SVD的几何意义

SVD描述了线性变换的几何结构：
输入空间 → [V^T] → 标准正交基 → [Σ] → 缩放变换 → [U] → 输出空间

重要性质与应用

数学性质：

任意矩阵都存在SVD分解
提供最优的低秩逼近
奇异值反映数据的重要程度

应用领域：

数据压缩和降维
推荐系统的矩阵分解
图像处理和信号降噪
主成分分析的数学基础

Day 21: 降维算法的深度对比

降维算法分类框架

无监督降维：

输入：仅需要特征矩阵X
目标：保留数据固有结构、最大化方差或保持流形结构
代表：PCA、t-SNE、UMAP等

有监督降维：

输入：特征矩阵X + 标签y
目标：最大化不同类别的可分性
代表：LDA

三大降维算法深度解析

PCA（主成分分析）：

核心：寻找最大方差方向
与SVD关系：对均值中心化数据的SVD分解
适用场景：线性降维、去噪、数据压缩
限制：仅适用于线性结构

t-SNE（t-分布随机邻域嵌入）：

核心：保持高维数据的局部邻域结构
特点：非线性降维，主要用于可视化
超参数：perplexity（困惑度）对结果影响很大
注意：不保留全局距离信息，多次运行结果可能不同

LDA（线性判别分析）：

核心：最大化类间散度，最小化类内散度
降维上限：min(n_features, n_classes - 1)
优势：直接优化类别可分性
局限：降维维度受类别数限制

降维算法选择指南

场景	推荐算法	理由
数据压缩	PCA	保留主要方差，计算高效
数据可视化	t-SNE/UMAP	保持局部结构，揭示簇结构
分类预处理	LDA	直接优化类别可分性
线性关系数据	PCA	简单有效，可解释性强
非线性流形数据	t-SNE/UMAP	能够捕捉复杂的非线性结构