当前位置: 首页 > news >正文

西瓜书读书笔记—绪论

文章目录

  • 机器学习
    • 典型的机器学习过程
  • 基本术语
  • 归纳偏好

机器学习

机器学习:致力于研究如果通过计算的手段,利用经验来改善系统自身的性能

在计算机系统中,“经验” 通常以 “数据” 形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生 ”模型“ (model) 的算法,即 ”学习算法“ (learning algorithm).

有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断.

典型的机器学习过程

在这里插入图片描述

基本术语

要进行机器学习,先要有数据. 假定我们收集了一些关于西瓜的数据,如下表所示:

色泽根蒂敲声好瓜
青绿蜷缩浊响
乌黑蜷缩浊响
青绿硬挺清脆
乌黑稍缩沉闷
  • 示例 (instance):表中每一行是一条记录,每条记录是关于一个事物或对象的描述,称为一个 ”示例“

  • 属性 (attribute):反应事物或对象在某方面的表现或性质的事项,例如表中 ”色泽“、”根蒂“ 称为属性或 特征 (feature); 属性上的取值,例如 ”青绿“、”乌黑“ ,称为属性值 (attribute value)

  • 属性空间 (attribute space):属性张成的空间称为 ”属性空间“ 、”样本空间“ 或”输入空间“. 例如我们把 “色泽”、“根蒂”、“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置

    • 在这里插入图片描述
  • 学习(learning)、训练(training):从数据中学得模型的过程称为学习或训练,这个过程通过执行某个学习算法来完成。

  • 假设(hypothesis):学得模型对应了关于数据的某种潜在的规律,亦称假设;这种潜在规律自身,则称为 “真相” 或 “真实”,学习过程就是为了找出或逼近真相

  • 标记(label):训练样本中关于结果的信息,例如 “好瓜”

  • 分类(classification):若我们预测的是离散值,例如“好瓜”、“坏瓜”,此类学习任务称为分类

  • 回归(regression):若预测的是连续值,例如西瓜的成熟度0.95、0.56,此类学习任务称为回归

  • 聚类(clustering):将训练集中的数据分为若干组,每组称为一个簇(cluster),这些簇可能对应一些潜在的概念划分;在聚类学习过程中使用的训练样本通常不具有标记信息

  • 监督学习(supervised learning)|无监督学习(unsupervised learning):根据训练数据是否拥有标记信息,学习任务可大致分为监督学习无监督学习.分类和回归是前者的代表,聚类是后者的代表.

  • 泛化(generalization):学得模型适用于新样本的能力,称为泛化能力.

  • 版本空间(version space):现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的 “假设集合”,称之为版本空间

归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为 “归纳偏好”或简称 “偏好”

任何一个有效的学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上 “等效” 的假设所迷惑,而无法产生确定的学习结果.

引导算法确立 “正确的” 偏好的一般性原则:奥卡姆剃刀

奥卡姆剃刀

  • 若非必要,勿增实体
  • 若有多个假设与观察一致,则选最简单的那个

例如,方程式 y=−x2+6x+1y=-x^2+6x+1y=x2+6x+1 与方程式 y=−x3+1y=-x^3+1y=x3+1 相比,若我们认为次数越小越简单,则前者更简单;若认为方程式的项数越少越简单,则后者更简单.

http://www.lryc.cn/news/3776.html

相关文章:

  • ES8——Generator函数的使用
  • 德馨食品冲刺A股上市:计划募资9亿元,林志勇为实际控制人
  • 湿敏电阻的原理,结构,分类与应用总结
  • 千锋教育嵌入式物联网教程之系统编程篇学习-03
  • 升级到https
  • 【C语言】数据结构-二叉树
  • c++中std::condition_variable最全用法归纳
  • Python数据可视化:数据关系图表可视化
  • Urho3D约定
  • python数据结构-列表,元组
  • Properties类读配置文件、修改配置文件
  • 图解LeetCode——剑指 Offer 24. 反转链表
  • 【C语言】“指针的运算”、“指针与数组”
  • Linux高级命令之查找文件命令
  • PyCharm+Docker:打造最舒适的深度学习炼丹炉
  • 【mock】手把手带你用mock写自定义接口+mock常用语法
  • 2023 年腾讯云服务器CVM快速配置购买教程,新手上云必备!
  • opencv显示图像
  • C++:类和对象(中)
  • 53. 最大子数组和
  • 基于Java+SpringBoot+SpringCloud+Vue前后端分离医院管理系统设计与实现
  • QT基础入门【环境配置篇】linux桌面QT开发环境的构建以及问题解决
  • Linux系统之部署企业内部静态导航页
  • 2023备战金三银四,Python自动化软件测试面试宝典合集(四)
  • 算法训练营 day43 动态规划 不同路径 不同路径 II
  • 关联查询的SQL有几种情况
  • 查缺补漏三:事务隔离级别
  • 没有她的通讯录(C语言实现)
  • Spring Security 从入门到精通
  • 微信小程序Springboot vue停车场车位管理系统