当前位置: 首页 > news >正文

机器学习学习报告

一、机器学习的定义

机器学习是通过处理特定任务,以大量经验为基础,依据一定的评判标准,分析经验数据,从而使任务完成得更好的过程。

二、机器学习的基本流程

机器学习的基本流程可概括为:基于历史数据进行训练,得到模型,再将新的输入属性输入模型,从而对未知的新数据进行预测。这一过程本质上是从经验中归纳规律,进而运用规律预测未来问题。

三、机器学习的应用领域

机器学习的应用领域十分广泛,主要包括模式识别、计算机视觉、数据挖掘、语音识别、统计学习、自然语言处理等。例如 Google Translate(谷歌翻译)就是自然语言处理领域应用机器学习的典型案例。

四、机器学习的基本术语

  1. 数据集:数据记录的集合称为一个 “数据集”(data set)。
  2. 样本:数据集中每条记录是关于一个事件或对象的描述,称为 “样本”。
  3. 特征(属性):反映事件或对象在某方面的表现或性质的事项,例如 “色泽”。如下表中 “色泽”“根蒂”“敲声” 均为特征:

编号色泽根蒂敲声
1青绿蜷缩浊响
2乌黑蜷缩沉闷
3乌黑蜷缩浊响
4青绿蜷缩沉闷

  1. 属性空间:属性张成的空间称为 “属性空间” 或 “样本空间”。
  2. 向量表示:一般地,令D={x1​,x2​,…,xm​}表示包含m个示例的数据集,每个样本由d个属性描述,则每个样本xi​=(xi1​,xi2​,…,xid​)是d维样本空间X中的一个向量,d称为样本xi​的 “维数”。
  3. 训练集:机器学习中用于训练模型的数据集合,包含标记信息。如下表就是一个关于 “好瓜” 判断的训练集,其中 “好瓜” 一列即为标记信息:

编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜
1青绿蜷缩浊响清晰凹陷硬滑0.6970.46
2乌黑蜷缩沉闷清晰凹陷硬滑0.7740.376
3乌黑蜷缩浊响清晰凹陷硬滑0.6340.264
4青绿蜷缩沉闷清晰凹陷硬滑0.6080.318
5浅白蜷缩浊响清晰凹陷硬滑0.5560.215
6青绿稍蜷浊响清晰稍凹软粘0.4030.237
7乌黑稍蜷浊响稍糊稍凹软粘0.4810.149
8乌黑稍蜷浊响清晰稍凹硬滑0.4370.211
9乌黑稍蜷沉闷稍糊稍凹硬滑0.6660.091
10青绿硬挺清脆清晰平坦软粘0.2430.267
11浅白硬挺清脆模糊平坦硬滑0.2450.057
12浅白蜷缩浊响模糊平坦软粘0.3430.099
13青绿稍蜷浊响稍糊凹陷硬滑0.6390.161
14浅白稍蜷沉闷稍糊凹陷硬滑0.6570.198

  1. 测试集:机器学习中用于测试模型的数据集合。如下表中 “好瓜” 一列的结果未知,可作为测试集来检验模型的预测效果:

编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜
15乌黑稍蜷浊响清晰稍凹软粘0.360.37
16浅白蜷缩浊响模糊平坦硬滑0.5930.042
17青绿蜷缩沉闷稍糊稍凹硬滑0.7190.103

五、机器学习的主要类型

  1. 监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,其数据集由 “正确答案”(标记)组成。监督学习又可分为分类和回归:
    • 分类:机器学习模型输出的结果被限定为有限的一组值,即离散型数值。例如判断西瓜是否为好瓜,输出结果为 “是” 或 “否”。
    • 回归:机器学习模型的输出可以是某个范围内的任何数值,即连续型数值。例如预测房屋价格,价格可以是某个范围内的任意数值。
  2. 无监督学习:提供数据集合但是不提供标记信息的学习过程。聚类是无监督学习的一种重要算法,例如将样本分成若干类。此外,无监督学习还可应用于关联分析,如分析向购买尿布的人推荐葡萄酒是否会促使其购买。
  3. 集成学习:通过构建并结合多个学习器来完成学习任务,以提高学习性能。

六、模型评估与选择

  1. 评估指标
    • 错误率:分类错误的样本数占样本总数的比例。
    • 精度:1 减去错误率。
    • 残差:学习器的实际预测输出与样本的真实输出之间的差异。
    • 训练误差(经验误差):学习器在训练集上的误差。
    • 泛化误差:学习器在新样本上的误差。
    • 损失函数:用来衡量模型预测误差大小的函数,损失函数越小,模型越好。
  2. 模型常见问题
    • 欠拟合:模型没有很好地捕捉到数据特征、特征集过小导致模型不能很好地拟合数据,本质上是对数据特征学习不够。
    • 过拟合:把训练数据学习得太彻底,以至于把噪声数据的特征也学习到了,特征集过大,导致在后期测试时不能够很好地识别数据,不能正确分类,模型泛化能力太差。
  3. 过拟合与欠拟合的处理方式
    • 过拟合的处理方式:增加训练数据;降维,即丢弃一些不能帮助正确预测的特征;采用正则化技术,保留所有特征,但减少参数的大小;使用集成学习方法,把多个模型集成在一起,降低单一模型的过拟合风险。
    • 欠拟合的处理方式:添加新特征,当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合;增加模型复杂度,简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能力;减小正则化系数,正则化是用来防止过拟合的,但当模型出现欠拟合现象时,则需要有针对性地减小正则化系数。
  4. 选择模型的基本原则
    • 奥卡姆剃刀原理:“如无必要,勿增实体”,即 “简单有效原理”。在所有可能选择的模型中,应该选择能够很好地解释已知数据,并且十分简单的模型。如果简单的模型已经够用,不应该一味地追求更小的训练误差,而把模型变得越来越复杂。
    • 没有免费的午餐(No Free Lunch,NFL):对于基于迭代的最优化算法,不存在某种算法对所有问题(有限的搜索空间内)都有效。如果一个算法对某些问题有效,那么它一定在另外一些问题上比纯随机搜索算法更差。在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。

      七、模型评估方法

    • 留出法:直接将数据集D划分为两个互斥的部分,其中一部分作为训练集S,另一部分用作测试集T。通常训练集和测试集的比例为 70%、30%。划分时需注意:尽可能保持数据分布的一致性,在分类任务中,保留类别比例的采样方法称为 “分层采样”;采用若干次随机划分避免单次使用留出法的不稳定性。
    • 交叉验证法:先将数据集D划分为k个大小相似的互斥子集,每次采用k−1个子集的并集作为训练集,剩下的那个子集作为测试集。进行k次训练和测试,最终返回k个测试结果的均值,又称为 “k折交叉验证”。
    • 八、模型评估的其他重要指标

    • 相关术语
      • TP(True positive,真正例):将正类预测为正类数。
      • FP(False positive,假正例):将反类预测为正类数。
      • TN(True negative,真反例):将反类预测为反类数。
      • FN(False negative,假反例):将正类预测为反类数。
    • 查准率(精确率)P 和查全率(召回率)R
      • 查准率P=TP+FPTP​
      • 查全率R=TP+FNTP​
      • 一般来说,查准率P高时,查全率R往往偏低;而查全率R高时,查准率P往往偏低。
    • P-R 图:直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时,若一个学习器的 P-R 曲线被另一个学习器的曲线完全 “包住”,则可断言后者的性能优于前者;如果两个学习器的 P-R 曲线发生了交叉,则难以一般性地断言两者孰优孰劣。
http://www.lryc.cn/news/620654.html

相关文章:

  • 【Linux基础知识系列】第九十四篇 - 如何使用traceroute命令追踪路由
  • 【自动化运维神器Ansible】template模块深度解析:动态配置文件生成的艺术
  • Horse3D游戏引擎研发笔记(五):在QtOpenGL环境下,仿three.js的BufferGeometry管理VAO和EBO绘制四边形
  • 生成式AI工程师自学路线图:从基础认知到生产落地的实战指南
  • Unity中的神经网络遗传算法实战
  • Elasticsearch ABAC 配置:实现动态、细粒度的访问控制
  • Opencv 边界填充 图像运算 阈值处理 和图像平滑处理
  • MySQL 性能优化实战指南:释放数据库潜能的艺术
  • Kafka 的消费
  • Java面试宝典:JVM性能优化
  • P1281 [CERC1998] 书的复制
  • centos部署chrome和chromedriver
  • Redis的 ​​散列(Hash)​​ 和 ​​列表(List)​​ 数据结构操作详解
  • 带环链表详解:环形链表检测与入环节点查找
  • C# 中 ArrayList动态数组、List<T>列表与 Dictionary<T Key, T Value>字典的深度对比
  • Java List 集合详解(ArrayList、LinkedList、Vector)
  • 上网行为安全概述和组网方案
  • 服务器的安全检测和防御技术
  • Docker部署美化SunPanel导航页
  • 从负载均衡到配置中心,Nacos内置功能一次讲清?
  • 如果超过10W并发,后台如何做负载均衡?
  • OpenManus项目中搜索引擎工具替换的技术方案解析
  • 文件上传接口接收不到文件入参
  • 新手如何高效运营亚马逊跨境电商:从传统SP广告到DeepBI智能策略
  • 飞算JavaAI:革新Java开发体验的智能助手
  • AI数据仓库的核心优势解析
  • MCPServerChart实用图表MCP快速入门指南
  • 预训练模型在机器翻译中的应用:迁移学习的优势详解
  • 介绍一下 自动驾驶 感知多任务训练模型设计
  • 自动驾驶轨迹规划算法——Apollo OpenSpace Planner