当前位置: 首页 > news >正文

02-机器学习-核心概念

以下是机器学习核心概念的详细梳理。


1. 机器学习三大范式

类型定义典型应用
监督学习使用带标签的数据训练模型,预测未知数据的标签。分类(邮件垃圾过滤)、回归(房价预测)
无监督学习无标签的数据中发现隐藏模式或结构。聚类(客户分群)、降维(数据可视化)
强化学习通过试错与奖励机制训练智能体,使其在环境中做出最优决策。游戏AI(AlphaGo)、自动驾驶

2. 核心算法分类

监督学习算法
  • 分类

    • 逻辑回归:二分类问题,输出概率值。
    • 决策树:基于特征阈值递归分割数据。
    • 支持向量机(SVM):寻找最大化分类间隔的超平面。
    • 随机森林:多棵决策树的集成,降低过拟合风险。
  • 回归

    • 线性回归:拟合数据的最佳直线/超平面。
    • 岭回归/Lasso回归:加入正则化项防止过拟合。
无监督学习算法
  • 聚类
    • K-Means:将数据划分为K个簇,最小化簇内距离。
    • 层次聚类:通过树状图展示数据分层聚合过程。
  • 降维
    • 主成分分析(PCA):通过正交变换提取主要特征。
    • t-SNE:非线性降维,适用于高维数据可视化。
其他重要方法
  • 半监督学习:结合少量标签数据和大量无标签数据训练模型。
  • 集成学习:通过Bagging(随机森林)、Boosting(XGBoost)提升模型性能。

3. 模型评估指标

任务类型评估指标解释
分类准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数、ROC-AUC- 精确率:预测为正的样本中实际为正的比例。
- 召回率:实际为正的样本中被正确预测的比例。
回归均方误差(MSE)、平均绝对误差(MAE)、R²分数- R²分数:模型对数据变动的解释能力(0~1,越大越好)。
聚类轮廓系数(Silhouette Score)、Calinski-Harabasz指数- 轮廓系数:衡量簇内紧密度和簇间分离度(-1~1,越大越好)。

4. 关键问题与解决方法

过拟合(Overfitting)
  • 现象:模型在训练集表现极佳,但在测试集表现差。
  • 解决
    • 增加训练数据量。
    • 正则化(L1/L2正则化)。
    • 交叉验证(如K-Fold)。
    • 减少模型复杂度(如剪枝决策树)。
欠拟合(Underfitting)
  • 现象:模型在训练集和测试集均表现不佳。
  • 解决
    • 增加模型复杂度(如使用更深的神经网络)。
    • 添加更多特征或进行特征工程。
偏差-方差权衡
  • 高偏差:模型过于简单,无法捕捉数据规律(欠拟合)。
  • 高方差:模型过于复杂,对噪声敏感(过拟合)。
  • 目标:通过调整模型复杂度和正则化,找到平衡点。

5. 核心流程

  1. 数据预处理:缺失值填充、标准化/归一化、编码类别特征。
  2. 特征工程:特征选择(如卡方检验)、特征构造(如多项式特征)。
  3. 模型训练:划分训练集/验证集/测试集,选择算法并调参。
  4. 模型评估:根据任务类型选择指标,分析结果。
  5. 模型部署:将训练好的模型转化为API服务或嵌入应用。

6. 实际应用场景

  • 分类:垃圾邮件识别、图像分类(猫 vs 狗)。
  • 回归:股票价格预测、销售额趋势分析。
  • 聚类:用户分群(电商推荐)、异常检测(信用卡欺诈)。
  • 降维:高维数据可视化(如将100维数据压缩为2维)。

掌握这些核心概念后,可以通过框架(如Scikit-learn)快速实现算法,并逐步深入理论细节。下一步建议通过实战项目(如Kaggle竞赛)巩固知识! 🚀

http://www.lryc.cn/news/527132.html

相关文章:

  • 1.26 实现文件拷贝的功能
  • ES6+新特性,var、let 和 const 的区别
  • HarmonyOS简介:HarmonyOS核心技术理念
  • 嵌入式C语言:结构体对齐
  • 【Rust自学】15.5. Rc<T>:引用计数智能指针与共享所有权
  • 谈谈RTMP|RTSP播放器视频view垂直|水平反转和旋转设计
  • decison tree 决策树
  • GO语言 链表(单向链表
  • Java:初识Java
  • Spring WebSocket 与 STOMP 协议结合实现私聊私信功能
  • 从0到1:C++ 开启游戏开发奇幻之旅(一)
  • 基于Flask的哔哩哔哩综合指数UP榜单数据分析系统的设计与实现
  • 在php中怎么打开OpenSSL
  • oracle 分区表介绍
  • wxwidgets直接获取系统图标,效果类似QFileIconProvider
  • Arduino大师练成手册 -- 控制 PN532 NFC 模块
  • 解决日志中 `NOT NULL constraint failed` 异常的完整指南
  • C动态库的生成与在Python和QT中的调用方法
  • UE求职Demo开发日志#7 强化属性完善
  • Day35:字符串的大小写转换
  • 喜报丨迪捷软件入选2025年浙江省“重点省专”
  • 深度剖析 PyTorch框架:从基础概念到高级应用的深度学习之旅!
  • 基于C++的DPU医疗领域编程初探
  • Linux 执行 fdisk -l 出现 GPT PMBR 大小不符 解决方法
  • 图漾相机搭配VisionPro使用简易教程
  • 第一届“启航杯”网络安全挑战赛WP
  • 大模型训练策略与架构优化实践指南
  • 新电脑安装系统找不到硬盘原因和解决方法来了
  • 【Linux】21.基础IO(3)
  • 深度学习算法:从基础到实践