当前位置: 首页 > news >正文

机器学习初学

一、机器学习的定义

机器学习是一种通过分析大量经验数据,提升特定任务表现的方法。其核心逻辑包括:

  • 针对特定任务(如预测 “好瓜”、围棋对弈等);
  • 有明确的评判标准(如预测准确率、对弈胜负等);
  • 通过对经验数据(历史数据)的分析,归纳规律形成模型,从而让任务完成得更好(如 AlphaGo 通过学习大量棋谱提升对弈能力)。

二、机器学习应用领域

文档提到的主要应用领域及其功能如下:

  • 模式识别:识别数据中的模式(如字符、图像中的特征模式),是许多领域的基础。
  • 计算机视觉:让计算机 “看懂” 图像 / 视频(如物体识别、人脸识别)。
  • 数据挖掘:从大量数据中提取隐藏的有用信息(如用户行为规律)。
  • 语音识别:将语音信号转换为文本(如语音助手的语音转文字功能)。
  • 自然语言处理:让计算机理解和处理人类语言(如 Google Translate 的翻译功能)。
  • 统计学习:基于统计学理论,通过数据构建模型并进行预测。

三、机器学习基本术语

  1. 数据集:数据记录的集合(如包含 17 条西瓜信息的表格)。
  2. 样本:数据集中的每条记录,描述一个事件或对象(如表格中编号为 1 的西瓜信息)。
  3. 特征(属性):反映对象性质的事项(如西瓜的 “色泽”“根蒂”)。
  4. 属性空间(样本空间):由所有属性张成的空间(如 “色泽 + 根蒂 + 敲声” 构成的三维空间)。
  5. 向量表示:样本在属性空间中的数值化表达,如样本\(x_i=(x_{i1}, x_{i2}, ..., x_{id})\)(d为属性数量,即维数)。
  6. 训练集:用于训练模型的数据集,包含标记信息(如已知 “好瓜” 与否的西瓜数据)。
  7. 测试集:用于检验模型性能的数据集,通常标记信息未知(如需要预测 “好瓜” 与否的新西瓜数据)。

四、学习类型

  1. 监督学习

    • 定义:使用带 “正确答案”(标记)的样本训练模型,调整参数以优化性能。
    • 分类:输出为离散值(如预测 “好瓜” 或 “坏瓜”)。
    • 回归:输出为连续值(如预测房屋价格,价格可在一定范围内取任意值)。
  2. 无监督学习

    • 定义:仅提供数据,不提供标记信息,模型自主发现数据中的规律。
    • 典型任务:聚类(将样本分为若干类,如将数据分为 4 个簇)、关联分析(如发现 “购买尿布的人可能购买葡萄酒” 的关联规则)。

五、集成学习

  • 定义:通过构建并结合多个学习器(模型)完成任务。
  • 功能:综合多个模型的优势,降低单一模型的误差或过拟合风险,提升整体性能。

六、模型评估与选择

1. 评估指标
  • 错误率:分类错误的样本数占总样本数的比例(如 100 个样本中错分 10 个,错误率为 10%)。
  • 精度:1 - 错误率(如上述例子的精度为 90%)。
  • 残差:模型预测输出与样本真实输出的差异(如预测房价为 100 万,实际为 95 万,残差为 5 万)。
  • 训练误差(经验误差):模型在训练集上的误差(反映对训练数据的拟合程度)。
  • 泛化误差:模型在新样本(未见过的数据)上的误差(反映模型的推广能力)。
  • 损失函数:衡量预测偏差的函数,值越小说明模型性能越好(如通过拟合直线最小化预测价格与实际价格的差距)。
2. 模型问题
  • 欠拟合

    • 含义:模型未充分捕捉数据特征(如特征不足),导致拟合效果差(如认为 “所有绿色的都是树叶”)。
    • 处理方式:添加新特征、增加模型复杂度、减小正则化系数。
  • 过拟合

    • 含义:模型过度学习训练数据,甚至包含噪声特征,导致泛化能力差(如认为 “树叶必须有锯齿”,无法识别无锯齿的树叶)。
    • 处理方式:增加训练数据、降维(丢弃无用特征)、正则化(减小参数影响)、集成学习。
3. 选择原则
  • 奥卡姆剃刀原理:“如无必要,勿增实体”,即优先选择能解释数据且简单的模型(避免为追求低训练误差而过度复杂化模型)。
  • 没有免费的午餐(NFL):不存在对所有问题都最优的算法,评价算法优劣需结合具体任务。
4. 评估方法
  • 留出法

    • 操作:将数据集划分为互斥的训练集(如 70%)和测试集(如 30%),用训练集建模,测试集评估。
    • 注意:保持数据分布一致(如分类任务用分层采样),多次随机划分以减少偶然性。
  • 交叉验证法(k 折交叉验证)

    • 操作:将数据集分为 k 个相似子集,每次用 k-1 个子集训练,1 个子集测试,重复 k 次后取均值。
    • 优势:充分利用数据,降低评估结果的随机性。
5. 分类评估指标
  • TP(真正例):将正类正确预测为正类(如实际是好瓜,预测为好瓜)。

  • FP(假正例):将反类错误预测为正类(如实际是坏瓜,预测为好瓜)。

  • TN(真反例):将反类正确预测为反类(如实际是坏瓜,预测为坏瓜)。

  • FN(假反例):将正类错误预测为反类(如实际是好瓜,预测为坏瓜)。

  • 查准率(P):预测为正类的样本中,实际为正类的比例,\(P=\frac{TP}{TP+FP}\)(如预测的 “好瓜” 中,真正好瓜的比例)。

  • 查全率(R):实际为正类的样本中,被正确预测的比例,\(R=\frac{TP}{TP+FN}\)(如所有好瓜中,被成功识别的比例)。

  • P-R 图:以查全率为横轴、查准率为纵轴的曲线,用于比较模型性能。若 A 的曲线完全包住 B,则 A 性能优于 B;若曲线交叉,则需结合具体场景判断(如侧重查准率还是查全率)

http://www.lryc.cn/news/621247.html

相关文章:

  • 前端vue框架
  • 机器学习知识总结
  • 智能体评测技术与实践:从评估维度到DeepEval实战指南
  • 20250814,通义万相,无限生成权限(慢速)
  • Linux中的日志管理
  • Linux中tty与8250-uart的虐恋(包括双中断发送接收机制)
  • 前端包管理工具
  • hive加载csv中字段含有换行符的处理方法
  • Spring-cloud-openfeign-设置超时时间
  • 数据结构:用两个栈模拟队列(Queue Using 2 Stacks)
  • 8.14网络编程——TCP通信基础
  • 【22-决策树】
  • 零基础-动手学深度学习-10.3. 注意力评分函数
  • 20道CSS相关前端面试题及答案
  • torch.nn中Sequential的使用
  • 【代码随想录day 20】 力扣 538.把二叉搜索树转换为累加树
  • CMake语法与Bash语法的区别
  • 扩展用例-失败的嵌套
  • 流式数据服务端怎么传给前端,前端怎么接收?
  • jenkins在windows配置sshpass
  • 设计模式笔记_行为型_状态模式
  • 【JavaEE】多线程 -- 线程状态
  • 纸箱拆垛:物流自动化中的“开箱密码”与3D视觉的智能革命
  • 面试题之项目中灰度发布是怎么做的
  • Flink on YARN启动全流程深度解析
  • 会议通信系统核心流程详解(底稿1)
  • Linux软件编程:进程和线程
  • C#面试题及详细答案120道(01-10)-- 基础语法与数据类型
  • Flink Stream API 源码走读 - socketTextStream
  • 2025H1手游市场:SLG领涨、休闲爆发,何为出海新航道?