机器学习基础讲解
一、什么是机器学习
机器学习是一种让计算机能够从数据中学习并改进的技术,其核心逻辑可以通过三个关键要素来理解:
- 针对特定任务,以大量经验数据为基础。
- 存在衡量任务完成好坏的评判标准。
- 通过分析经验数据,不断优化任务的完成效果。
一个广为人知的案例是 2016 年 3 月在韩国首尔,阿尔法围棋(AlphaGo)以总比分 4:1 战胜韩国围棋九段棋手李世石,这正是机器学习在复杂决策领域的精彩应用。
从流程上看,机器学习通过对历史数据(经验)进行训练,归纳出规律并构建模型,当输入新的未知数据(属性)时,模型就能做出预测,从而解决新的问题。
二、机器学习基本术语
1. 数据相关术语
- 数据集:数据记录的集合,例如包含多个西瓜信息的记录集合。
- 样本:数据集中的每条记录,是对一个事件或对象的描述,比如某个具体西瓜的信息。
- 特征(属性):反映事件或对象某方面性质的事项,如西瓜的 “色泽”“根蒂”“敲声” 等。
如下表就是一个包含样本和特征的数据集示例:
编号 | 色泽 | 根蒂 | 敲声 |
---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 |
2 | 乌黑 | 蜷缩 | 沉闷 |
3 | 乌黑 | 蜷缩 | 浊响 |
4 | 青绿 | 蜷缩 | 沉闷 |
2. 空间与表示
- 属性空间(样本空间):由属性张成的空间。
- 向量表示:若数据集\(D = \{x_1, x_2, ..., x_m\}\)包含m个示例,每个样本由d个属性描述,则每个样本\(x_i=(x_{i1}, x_{i2}, ..., x_{id})\)是d维样本空间X中的一个向量,d为样本\(x_i\)的 “维数”。
3. 训练与测试相关
- 训练集:用于训练模型的数据集合,包含标记信息。例如带有 “好瓜” 与否标记的西瓜数据集:
- 训练集:用于训练模型的数据集合,包含标记信息。例如带有 “好瓜” 与否标记的西瓜数据集:
-
编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜 1 青绿 蜷缩 浊响 清晰 凹陷 硬滑 0.697 0.46 是 2 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 0.774 0.376 是 ... ... ... ... ... ... ... ... ... ...
- 测试集:用于测试模型的数据集合,通常不包含标记信息(或标记信息用于验证),如下表中 “好瓜” 一栏为 “?”,等待模型预测:
编号 | 色泽 | 根蒂 | 敲声 | 纹理 | 脐部 | 触感 | 密度 | 含糖率 | 好瓜 |
---|---|---|---|---|---|---|---|---|---|
15 | 乌黑 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 软粘 | 0.36 | 0.37 | ? |
16 | 浅白 | 蜷缩 | 浊响 | 模糊 | 平坦 | 硬滑 | 0.593 | 0.042 | ? |
17 | 青绿 | 蜷缩 | 沉闷 | 稍糊 | 稍凹 | 硬滑 | 0.719 | 0.103 | ? |
三、机器学习的主要类型
1. 监督学习
利用已知类别的样本调整模型参数,数据集包含 “正确答案”(标记)。分为:
- 分类:模型输出为有限的离散型数值。例如判断西瓜是否为好瓜,输出 “是” 或 “否”。
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 沉闷 | 是 |
3 | 乌黑 | 蜷缩 | 浊响 | 否 |
4 | 青绿 | 蜷缩 | 沉闷 | ? |
- 回归:模型输出为某个范围内的连续型数值。例如预测房屋价格,价格可以是连续的数值。
编号 | 房屋面积 | 区域 | 地铁附近 | 价格 |
---|---|---|---|---|
1 | 88 | A 区 | 是 | 880000 |
2 | 104 | B 区 | 否 | 1500000 |
3 | 79 | A 区 | 否 | 990000 |
4 | 90 | A 区 | 是 | ? |
2. 无监督学习
提供数据集合但不提供标记信息,典型算法是 “聚类”,即将样本分成不同的类别。例如分析交易数据,像向购买尿布的人推荐葡萄酒,就是基于无监督学习发现的购买模式。
3. 集成学习
通过构建并结合多个学习器来完成学习任务,以提高模型的性能和稳定性。
四、模型评估与选择
1. 评估指标
- 错误率:分类错误的样本数占样本总数的比例。
- 精度:1 减去错误率。
- 残差:模型实际预测输出与样本真实输出的差异。
- 训练误差(经验误差):模型在训练集上的误差。
- 泛化误差:模型在新样本上的误差。
- 损失函数:衡量模型预测误差大小的函数,损失函数越小,模型越好,例如通过数据拟合直线时,预测价格与实际价格的差异衡量。
2. 模型常见问题
- 欠拟合:模型未充分捕捉数据特征,特征集过小,对数据拟合不好,本质是对数据特征学习不够。例如将所有绿色的东西都认为是树叶。
- 过拟合:模型过度学习训练数据,包括噪声特征,导致泛化能力差。例如认为树叶必须有锯齿,从而错误判断无锯齿的树叶。
3. 问题处理方式
- 过拟合处理:
- 增加训练数据,减少噪声影响。
- 降维,丢弃无用特征。
- 正则化,减小参数大小。
- 采用集成学习方法。
- 欠拟合处理:
- 添加新特征,增强与样本标签的相关性。
- 增加模型复杂度,提升拟合能力。
- 减小正则化系数。
4. 模型选择原则
- 奥卡姆剃刀原理:“如无必要,勿增实体”,选择能很好解释已知数据且简单的模型。
- 没有免费的午餐(NFL):不存在对所有问题都有效的算法,谈论算法优劣需针对具体问题。
5. 评估方法
- 留出法:将数据集划分为训练集(通常 70%)和测试集(通常 30%),注意保持数据分布一致(如分层采样),并多次随机划分避免不稳定性。
- 交叉验证法:将数据集划分为k个相似互斥子集,每次用\(k-1\)个子集作为训练集,1 个作为测试集,进行k次训练和测试,返回均值,即 “k折交叉验证”。
6. 分类评估指标
- TP(真正例):将正类预测为正类的数量。
- FP(假正例):将反类预测为正类的数量。
- TN(真反例):将反类预测为反类的数量。
- FN(假反例):将正类预测为反类的数量。
- 查准率(P):\(P=\frac{TP}{TP + FP}\),衡量预测为正类的样本中实际正类的比例。
- 查全率(R):\(R=\frac{TP}{TP + FN}\),衡量实际正类中被正确预测的比例。
P-R 图可直观显示查全率和查准率,若一个学习器的 P-R 曲线被另一个完全 “包住”,则后者性能更优;若曲线交叉,则需结合具体场景判断。
五、机器学习应用领域
机器学习应用广泛,包括模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理(如 Google Translate)等多个领域,正在深刻改变着我们的生活和工作方式。
通过以上内容,我们对机器学习的基本概念、类型、评估与选择等方面有了一个全面的了解,这些基础知识是深入学习机器学习的重要基石。
用通俗易懂的语言解释一下机器学习的基本术语
分享一些在日常生活中应用机器学习的具体例子
机器学习和深度学习有什么区别?