当前位置：首页 > news >正文

机器学习核心概念与实践笔记

news 2025/8/15 11:31:43

一、机器学习的定义与核心逻辑

机器学习是通过分析大量经验数据，优化特定任务表现的过程，其核心逻辑包括：

以经验数据为基础处理特定任务
建立评判任务完成质量的标准
通过数据迭代使任务表现持续提升

典型案例为 2016 年阿尔法围棋（AlphaGo）以 4:1 战胜李世石，体现了机器学习在复杂决策任务中的应用。

二、基本术语体系

数据相关术语
- 数据集：数据记录的集合（如包含多个西瓜特征的表格）
- 样本：数据集中的每条记录，描述一个对象或事件
- 特征（属性）：描述对象特征的事项（如西瓜的 “色泽”“根蒂”）
- 属性空间：由所有属性构成的多维空间，每个样本对应空间中的一个向量
学习过程术语
- 训练集：含标记信息（如 “好瓜 = 是 / 否”）的数据集，用于模型训练
- 测试集：用于评估模型性能的数据集，通常包含未知结果的样本
- 维数：样本包含的属性数量（如含 8 个属性的西瓜样本为 8 维数据）

三、学习任务分类

1. 监督学习

特点：数据集包含 “正确答案”（标记信息）
主要任务：
- 分类：输出离散型结果（如判断西瓜是否为好瓜）
- 回归：输出连续型数值（如预测房屋价格）

2. 无监督学习

特点：仅提供数据集合，不包含标记信息
典型任务：
- 聚类：将样本自动划分为若干类别（如将数据分成 4 类）
- 关联分析：发现数据间隐藏关联（如 “购买尿布的客户可能购买葡萄酒”）

3. 集成学习

通过构建并结合多个学习器完成任务，提升整体性能

四、模型评估指标

基础指标
- 错误率：分类错误的样本占比
- 精度：1 - 错误率，即分类正确的样本占比
- 残差：预测输出与真实结果的差异
- 训练误差：模型在训练集上的误差
- 泛化误差：模型在新样本上的误差
- 损失函数：衡量预测偏差的函数，值越小模型性能越好
分类任务专用指标
- 混淆矩阵元素：
  - TP（真正例）：正类预测为正类
  - FP（假正例）：反类预测为正类
  - TN（真反例）：反类预测为反类
  - FN（假反例）：正类预测为反类
- 查准率（P）：P=TP/(TP+FP)，预测为正类的样本中实际正类的比例
- 查全率（R）：R=TP/(TP+FN)，实际正类中被正确预测的比例
- P-R 图：直观展示查准率与查全率的关系，可用于比较不同模型性能

五、模型评估方法

留出法
- 将数据集划分为互斥的训练集（通常 70%）和测试集（通常 30%）
- 注意事项：保持数据分布一致性（如分层采样），多次随机划分以减少偏差
交叉验证法
- 将数据集划分为 k 个相似子集，每次用 k-1 个子集训练，1 个子集测试
- 重复 k 次后取均值作为结果（常用 10 折交叉验证）

六、模型优化：欠拟合与过拟合

过拟合
表现：过度学习训练数据，包括噪声特征，泛化能力差解决方法：集成学习欠拟合表现：未能捕捉数据特征，拟合效果差解决方法：减小正则化系数增加模型复杂度添加新特征正则化（减小参数规模）特征降维增加训练数据量

首先，关于什么是机器学习，从本质来讲，机器学习就是让机器处理特定任务时，以大量经验数据为基础，先设定评判任务完成好坏的标准，再通过分析这些数据不断改进，让任务完成得越来越出色。简单说，就是机器从经验中归纳规律，再用规律预测未来；或者用历史数据训练出模型，再用模型对未知新数据进行预测。接着是机器学习的基本术语。

数据集是数据记录的集合，就像一堆关于西瓜的信息汇总起来就是一个西瓜数据集。数据集中的每条记录，比如每一条关于某个西瓜的描述，就是样本。而像西瓜的 “色泽”“根蒂”“敲声” 这些反映对象特征的事项，就是特征或属性。由这些属性构成的空间就是属性空间或样本空间，每个样本都可以看作是这个空间里的一个向量，样本包含的属性数量就是这个向量的维数，比如一个西瓜有 8 个属性，那它就是 8 维向量。、

在机器学习中，数据还分为训练集和测试集。训练集是用来训练模型的，里面包含 “正确答案”，也就是标记信息。比如有个西瓜数据集，不仅有西瓜的各种特征，还有 “好瓜” 这一标记，明确告诉我们这个西瓜是不是好瓜，这就是训练集。测试集则是用来检验模型好坏的，里面的样本没有标记信息，比如一些不知道是不是好瓜的西瓜数据，我们用训练好的模型去预测，以此判断模型的性能。

然后是机器学习的主要类型。第一种是监督学习，它的数据集有 “正确答案”，也就是标记信息，通过这些已知类别的样本调整分类器参数，让其达到理想性能。监督学习又分为分类和回归。分类是模型输出离散的结果，比如判断西瓜是好瓜还是坏瓜，结果只有 “是” 或 “否”；回归则是输出连续的数值，比如预测房屋价格，价格可以是某个范围内的任意数值。

第二种是无监督学习，它只提供数据，没有标记信息。最典型的就是聚类，就是把样本自动分成不同类别，比如根据一些数据特征把它们分成 4 类。无监督学习还有一个有趣的应用，比如分析交易数据发现，购买尿布的人可能也会购买葡萄酒，从而可以进行相关推荐，这就是挖掘数据间的隐藏关联。

第三种是集成学习，它通过构建多个学习器，再把它们结合起来完成学习任务，以此提高整体性能。再来看模型评估与选择。首先是一些基本评估指标，错误率是分类错误的样本数占总样本数的比例，精度则是 1 减去错误率，也就是分类正确的样本比例。残差是模型预测输出和样本真实输出的差异。训练误差是模型在训练集上的误差，泛化误差是模型在新样本上的误差。损失函数用来衡量预测误差，损失函数越小，模型越好，比如用房屋大小拟合直线预测房价，损失函数就衡量这条直线和实际数据的偏差。模型训练中常出现欠拟合和过拟合的问题。欠拟合是模型没抓住数据特征，不能很好地拟合数据，本质是对数据学习不够。过拟合则是模型把训练数据学过头了，连噪声都记住了，导致在新数据上表现很差，泛化能力弱。比如识别树叶时，过拟合的模型可能认为树叶必须有锯齿，于是把没锯齿的树叶判为不是树叶；欠拟合的模型可能觉得绿色的都是树叶，就把绿色的其他东西也当成树叶。

针对过拟合，解决办法有增加训练数据、降维、正则化（减小参数规模）、集成学习等。对于欠拟合，可以添加新特征、增加模型复杂度、减小正则化系数等选择模型有两个重要原则，奥卡姆剃刀原理是说在能很好解释数据的前提下，选更简单的模型；“没有免费的午餐” 理论则指出，没有哪种算法对所有问题都有效，谈论算法好坏要结合具体任务。

模型评估方法主要有留出法和交叉验证法。留出法是把数据集分成互斥的两部分，一部分当训练集（通常 70%），一部分当测试集（通常 30%），要注意保持数据分布一致，多随机划分几次减少偏差。交叉验证法是把数据集分成 k 个相似子集，每次用 k-1 个当训练集，1 个当测试集，重复 k 次，取均值作为结果，常用的是 10 折交叉验证。在分类任务中，有几个关键指标：TP（真正例，把正类判为正类）、FP（假正例，把反类判为正类）、TN（真反例，把反类判为反类）、FN（假反例，把正类判为反类）。根据这些可以算出查准率 P（TP/(TP+FP)）和查全率 R（TP/(TP+FN)），通常两者难以同时兼顾。还可以通过 P-R 图直观比较不同模型的查准率和查全率，判断模型性能。

查看全文

http://www.lryc.cn/news/621097.html