当前位置：首页 > news >正文

机器学习初学

news 2025/8/15 13:49:19

一、机器学习的定义

机器学习是一种通过分析大量经验数据，提升特定任务表现的方法。其核心逻辑包括：

针对特定任务（如预测 “好瓜”、围棋对弈等）；
有明确的评判标准（如预测准确率、对弈胜负等）；
通过对经验数据（历史数据）的分析，归纳规律形成模型，从而让任务完成得更好（如 AlphaGo 通过学习大量棋谱提升对弈能力）。

二、机器学习应用领域

文档提到的主要应用领域及其功能如下：

模式识别：识别数据中的模式（如字符、图像中的特征模式），是许多领域的基础。
计算机视觉：让计算机 “看懂” 图像 / 视频（如物体识别、人脸识别）。
数据挖掘：从大量数据中提取隐藏的有用信息（如用户行为规律）。
语音识别：将语音信号转换为文本（如语音助手的语音转文字功能）。
自然语言处理：让计算机理解和处理人类语言（如 Google Translate 的翻译功能）。
统计学习：基于统计学理论，通过数据构建模型并进行预测。

三、机器学习基本术语

数据集：数据记录的集合（如包含 17 条西瓜信息的表格）。
样本：数据集中的每条记录，描述一个事件或对象（如表格中编号为 1 的西瓜信息）。
特征（属性）：反映对象性质的事项（如西瓜的 “色泽”“根蒂”）。
属性空间（样本空间）：由所有属性张成的空间（如 “色泽 + 根蒂 + 敲声” 构成的三维空间）。
向量表示：样本在属性空间中的数值化表达，如样本\(x_i=(x_{i1}, x_{i2}, ..., x_{id})\)（d为属性数量，即维数）。
训练集：用于训练模型的数据集，包含标记信息（如已知 “好瓜” 与否的西瓜数据）。
测试集：用于检验模型性能的数据集，通常标记信息未知（如需要预测 “好瓜” 与否的新西瓜数据）。

四、学习类型

监督学习：
- 定义：使用带 “正确答案”（标记）的样本训练模型，调整参数以优化性能。
- 分类：输出为离散值（如预测 “好瓜” 或 “坏瓜”）。
- 回归：输出为连续值（如预测房屋价格，价格可在一定范围内取任意值）。
无监督学习：
- 定义：仅提供数据，不提供标记信息，模型自主发现数据中的规律。
- 典型任务：聚类（将样本分为若干类，如将数据分为 4 个簇）、关联分析（如发现 “购买尿布的人可能购买葡萄酒” 的关联规则）。

五、集成学习

定义：通过构建并结合多个学习器（模型）完成任务。
功能：综合多个模型的优势，降低单一模型的误差或过拟合风险，提升整体性能。

六、模型评估与选择

1. 评估指标

错误率：分类错误的样本数占总样本数的比例（如 100 个样本中错分 10 个，错误率为 10%）。
精度：1 - 错误率（如上述例子的精度为 90%）。
残差：模型预测输出与样本真实输出的差异（如预测房价为 100 万，实际为 95 万，残差为 5 万）。
训练误差（经验误差）：模型在训练集上的误差（反映对训练数据的拟合程度）。
泛化误差：模型在新样本（未见过的数据）上的误差（反映模型的推广能力）。
损失函数：衡量预测偏差的函数，值越小说明模型性能越好（如通过拟合直线最小化预测价格与实际价格的差距）。

2. 模型问题

欠拟合：
- 含义：模型未充分捕捉数据特征（如特征不足），导致拟合效果差（如认为 “所有绿色的都是树叶”）。
- 处理方式：添加新特征、增加模型复杂度、减小正则化系数。
过拟合：
- 含义：模型过度学习训练数据，甚至包含噪声特征，导致泛化能力差（如认为 “树叶必须有锯齿”，无法识别无锯齿的树叶）。
- 处理方式：增加训练数据、降维（丢弃无用特征）、正则化（减小参数影响）、集成学习。

3. 选择原则

奥卡姆剃刀原理：“如无必要，勿增实体”，即优先选择能解释数据且简单的模型（避免为追求低训练误差而过度复杂化模型）。
没有免费的午餐（NFL）：不存在对所有问题都最优的算法，评价算法优劣需结合具体任务。

4. 评估方法

留出法：
- 操作：将数据集划分为互斥的训练集（如 70%）和测试集（如 30%），用训练集建模，测试集评估。
- 注意：保持数据分布一致（如分类任务用分层采样），多次随机划分以减少偶然性。
交叉验证法（k 折交叉验证）：
- 操作：将数据集分为 k 个相似子集，每次用 k-1 个子集训练，1 个子集测试，重复 k 次后取均值。
- 优势：充分利用数据，降低评估结果的随机性。

5. 分类评估指标

TP（真正例）：将正类正确预测为正类（如实际是好瓜，预测为好瓜）。
FP（假正例）：将反类错误预测为正类（如实际是坏瓜，预测为好瓜）。
TN（真反例）：将反类正确预测为反类（如实际是坏瓜，预测为坏瓜）。
FN（假反例）：将正类错误预测为反类（如实际是好瓜，预测为坏瓜）。
查准率（P）：预测为正类的样本中，实际为正类的比例，\(P=\frac{TP}{TP+FP}\)（如预测的 “好瓜” 中，真正好瓜的比例）。
查全率（R）：实际为正类的样本中，被正确预测的比例，\(R=\frac{TP}{TP+FN}\)（如所有好瓜中，被成功识别的比例）。
P-R 图：以查全率为横轴、查准率为纵轴的曲线，用于比较模型性能。若 A 的曲线完全包住 B，则 A 性能优于 B；若曲线交叉，则需结合具体场景判断（如侧重查准率还是查全率）

http://www.lryc.cn/news/621247.html

相关文章：

前端vue框架

机器学习知识总结

智能体评测技术与实践：从评估维度到DeepEval实战指南

20250814,通义万相，无限生成权限（慢速）

Linux中的日志管理

Linux中tty与8250-uart的虐恋（包括双中断发送接收机制）

前端包管理工具

hive加载csv中字段含有换行符的处理方法

Spring-cloud-openfeign-设置超时时间

数据结构：用两个栈模拟队列（Queue Using 2 Stacks）

8.14网络编程——TCP通信基础

【22-决策树】

零基础-动手学深度学习-10.3. 注意力评分函数

20道CSS相关前端面试题及答案

torch.nn中Sequential的使用

【代码随想录day 20】力扣 538.把二叉搜索树转换为累加树

CMake语法与Bash语法的区别

扩展用例-失败的嵌套

流式数据服务端怎么传给前端，前端怎么接收？

jenkins在windows配置sshpass

设计模式笔记_行为型_状态模式

【JavaEE】多线程 -- 线程状态

纸箱拆垛：物流自动化中的“开箱密码”与3D视觉的智能革命

面试题之项目中灰度发布是怎么做的

Flink on YARN启动全流程深度解析

会议通信系统核心流程详解（底稿1）

Linux软件编程：进程和线程

C#面试题及详细答案120道（01-10）-- 基础语法与数据类型

Flink Stream API 源码走读 - socketTextStream

2025H1手游市场：SLG领涨、休闲爆发，何为出海新航道？