当前位置: 首页 > news >正文

机器学习核心概念与实践笔记

一、机器学习的定义与核心逻辑

机器学习是通过分析大量经验数据,优化特定任务表现的过程,其核心逻辑包括:

  • 以经验数据为基础处理特定任务
  • 建立评判任务完成质量的标准
  • 通过数据迭代使任务表现持续提升

典型案例为 2016 年阿尔法围棋(AlphaGo)以 4:1 战胜李世石,体现了机器学习在复杂决策任务中的应用。

二、基本术语体系

  1. 数据相关术语

    • 数据集:数据记录的集合(如包含多个西瓜特征的表格)
    • 样本:数据集中的每条记录,描述一个对象或事件
    • 特征(属性):描述对象特征的事项(如西瓜的 “色泽”“根蒂”)
    • 属性空间:由所有属性构成的多维空间,每个样本对应空间中的一个向量
  2. 学习过程术语

    • 训练集:含标记信息(如 “好瓜 = 是 / 否”)的数据集,用于模型训练
    • 测试集:用于评估模型性能的数据集,通常包含未知结果的样本
    • 维数:样本包含的属性数量(如含 8 个属性的西瓜样本为 8 维数据)

三、学习任务分类

1. 监督学习

  • 特点:数据集包含 “正确答案”(标记信息)
  • 主要任务:
    • 分类:输出离散型结果(如判断西瓜是否为好瓜)
    • 回归:输出连续型数值(如预测房屋价格)

2. 无监督学习

  • 特点:仅提供数据集合,不包含标记信息
  • 典型任务:
    • 聚类:将样本自动划分为若干类别(如将数据分成 4 类)
    • 关联分析:发现数据间隐藏关联(如 “购买尿布的客户可能购买葡萄酒”)

3. 集成学习

通过构建并结合多个学习器完成任务,提升整体性能

四、模型评估指标

  1. 基础指标

    • 错误率:分类错误的样本占比
    • 精度:1 - 错误率,即分类正确的样本占比
    • 残差:预测输出与真实结果的差异
    • 训练误差:模型在训练集上的误差
    • 泛化误差:模型在新样本上的误差
    • 损失函数:衡量预测偏差的函数,值越小模型性能越好
  2. 分类任务专用指标

    • 混淆矩阵元素:
      • TP(真正例):正类预测为正类
      • FP(假正例):反类预测为正类
      • TN(真反例):反类预测为反类
      • FN(假反例):正类预测为反类
    • 查准率(P):P=TP/(TP+FP),预测为正类的样本中实际正类的比例
    • 查全率(R):R=TP/(TP+FN),实际正类中被正确预测的比例
    • P-R 图:直观展示查准率与查全率的关系,可用于比较不同模型性能

五、模型评估方法

  1. 留出法

    • 将数据集划分为互斥的训练集(通常 70%)和测试集(通常 30%)
    • 注意事项:保持数据分布一致性(如分层采样),多次随机划分以减少偏差
  2. 交叉验证法

    • 将数据集划分为 k 个相似子集,每次用 k-1 个子集训练,1 个子集测试
    • 重复 k 次后取均值作为结果(常用 10 折交叉验证)

六、模型优化:欠拟合与过拟合

  1. 过拟合

    表现:过度学习训练数据,包括噪声特征,泛化能力差解决方法:集成学习欠拟合表现:未能捕捉数据特征,拟合效果差解决方法:减小正则化系数增加模型复杂度添加新特征正则化(减小参数规模)特征降维增加训练数据量

首先,关于什么是机器学习,从本质来讲,机器学习就是让机器处理特定任务时,以大量经验数据为基础,先设定评判任务完成好坏的标准,再通过分析这些数据不断改进,让任务完成得越来越出色。简单说,就是机器从经验中归纳规律,再用规律预测未来;或者用历史数据训练出模型,再用模型对未知新数据进行预测。接着是机器学习的基本术语。

数据集是数据记录的集合,就像一堆关于西瓜的信息汇总起来就是一个西瓜数据集。数据集中的每条记录,比如每一条关于某个西瓜的描述,就是样本。而像西瓜的 “色泽”“根蒂”“敲声” 这些反映对象特征的事项,就是特征或属性。由这些属性构成的空间就是属性空间或样本空间,每个样本都可以看作是这个空间里的一个向量,样本包含的属性数量就是这个向量的维数,比如一个西瓜有 8 个属性,那它就是 8 维向量。、

在机器学习中,数据还分为训练集和测试集。训练集是用来训练模型的,里面包含 “正确答案”,也就是标记信息。比如有个西瓜数据集,不仅有西瓜的各种特征,还有 “好瓜” 这一标记,明确告诉我们这个西瓜是不是好瓜,这就是训练集。测试集则是用来检验模型好坏的,里面的样本没有标记信息,比如一些不知道是不是好瓜的西瓜数据,我们用训练好的模型去预测,以此判断模型的性能。

然后是机器学习的主要类型。第一种是监督学习,它的数据集有 “正确答案”,也就是标记信息,通过这些已知类别的样本调整分类器参数,让其达到理想性能。监督学习又分为分类和回归。分类是模型输出离散的结果,比如判断西瓜是好瓜还是坏瓜,结果只有 “是” 或 “否”;回归则是输出连续的数值,比如预测房屋价格,价格可以是某个范围内的任意数值。

第二种是无监督学习,它只提供数据,没有标记信息。最典型的就是聚类,就是把样本自动分成不同类别,比如根据一些数据特征把它们分成 4 类。无监督学习还有一个有趣的应用,比如分析交易数据发现,购买尿布的人可能也会购买葡萄酒,从而可以进行相关推荐,这就是挖掘数据间的隐藏关联。

第三种是集成学习,它通过构建多个学习器,再把它们结合起来完成学习任务,以此提高整体性能。再来看模型评估与选择。首先是一些基本评估指标,错误率是分类错误的样本数占总样本数的比例,精度则是 1 减去错误率,也就是分类正确的样本比例。残差是模型预测输出和样本真实输出的差异。训练误差是模型在训练集上的误差,泛化误差是模型在新样本上的误差。损失函数用来衡量预测误差,损失函数越小,模型越好,比如用房屋大小拟合直线预测房价,损失函数就衡量这条直线和实际数据的偏差。模型训练中常出现欠拟合和过拟合的问题。欠拟合是模型没抓住数据特征,不能很好地拟合数据,本质是对数据学习不够。过拟合则是模型把训练数据学过头了,连噪声都记住了,导致在新数据上表现很差,泛化能力弱。比如识别树叶时,过拟合的模型可能认为树叶必须有锯齿,于是把没锯齿的树叶判为不是树叶;欠拟合的模型可能觉得绿色的都是树叶,就把绿色的其他东西也当成树叶。

针对过拟合,解决办法有增加训练数据、降维、正则化(减小参数规模)、集成学习等。对于欠拟合,可以添加新特征、增加模型复杂度、减小正则化系数等选择模型有两个重要原则,奥卡姆剃刀原理是说在能很好解释数据的前提下,选更简单的模型;“没有免费的午餐” 理论则指出,没有哪种算法对所有问题都有效,谈论算法好坏要结合具体任务。

模型评估方法主要有留出法和交叉验证法。留出法是把数据集分成互斥的两部分,一部分当训练集(通常 70%),一部分当测试集(通常 30%),要注意保持数据分布一致,多随机划分几次减少偏差。交叉验证法是把数据集分成 k 个相似子集,每次用 k-1 个当训练集,1 个当测试集,重复 k 次,取均值作为结果,常用的是 10 折交叉验证。在分类任务中,有几个关键指标:TP(真正例,把正类判为正类)、FP(假正例,把反类判为正类)、TN(真反例,把反类判为反类)、FN(假反例,把正类判为反类)。根据这些可以算出查准率 P(TP/(TP+FP))和查全率 R(TP/(TP+FN)),通常两者难以同时兼顾。还可以通过 P-R 图直观比较不同模型的查准率和查全率,判断模型性能。

http://www.lryc.cn/news/621097.html

相关文章:

  • spring mvc HttpMessageConverter 消息转换器
  • 【互动屏幕】解析双屏联动在数字展厅中的应用与价值
  • 系统升级后客户端缓存问题的无感知解决方案
  • [激光原理与应用-273]:理论 - 波动光学 - 光是电磁波,本身并没有颜色,可见光的颜色不过是人的主观感受
  • 网络组播技术详解
  • 考研408《计算机组成原理》复习笔记,第五章(3)——CPU的【数据通路】
  • 深入理解管道(上):PowerShell 管道参数绑定原理与高频范式
  • 玩转QEMU硬件模拟器 - Versatilepb模拟器开发概述
  • MySql——聚簇索引(主键索引)和非聚簇索索引(非主键索引)引区别(即聚集索引和非聚集索引区别)
  • IPv6互联网地址解析
  • [论文阅读] 人工智能 + 软件工程 | 代码变更转自然语言生成中的幻觉问题研究解析
  • 便宜云服务器持续更新
  • 代币经济模型设计指南:如何通过代币化赋能实体业务与DAO治理?
  • C++ STL学习 之 泛型编程
  • Spring Boot + Redis Sentinel (一主两从)测试案例
  • 面试题之项目中git如何进行管理
  • CVE-2014-6271(bash破壳漏洞 )
  • C语言预处理过程详细介绍
  • 集成电路学习:什么是Machine Learning机器学习
  • STM32F103 basic定时器的介绍和应用
  • Android UI(一)登录注册 - Compose
  • 有哪些开源卫星姿控软件
  • 具身智能Scaling Law缺失:机器人界的“摩尔定律“何时诞生?
  • 用SQL实现对DuckDB rusty_sheet插件批量测试
  • 树莓派 4B 上部署 Minecraft PaperMC 1.20.x 的一键部署脚本
  • Qwen2-VL-2B 轻量化部署实战:数据集构建、LoRA微调、GPTQ量化与vLLM加速
  • Java Stream API:让业务数据处理更优雅
  • HTTP协议深度解析
  • 多种适用于 MCU 固件的 OTA 升级方案
  • STM32学习笔记11-通信协议-串口基本发送与接收