当前位置: 首页 > news >正文

《统计学习方法》(李航)——学习笔记

第一章 概论

统计学习,又称统计机器学习(机器学习),现在提到的 机器学习 往往指的就是 统计机器学习。

统计学习研究的对象是数据,其对数据的基本假设是同类数据存在一定的统计规律性,因此可以用概率统计方法处理他们:用随机变量描述数据中的特征,用概率分布描述数据的统计规律,然后基于数据构建概率统计模型从而对数据进行预测和分析。

  • 统计学习假设数据是独立同分布(i.i.d.)

1.1 统计学习的分类

统计学习方法一般包括一下几种:

  1. 监督学习

  • 监督学习假设输入随机变量X和输出随机变量Y遵循联合概率分布

  • 监督学习的模型可以是概率模型:条件概率分布,也可以是非概率模型:决策函数。对具体的输入做预测,写作。通过学习(训练)得到一个模型为条件概率分布或决策函数

  1. 无监督学习

  • 无监督学习的本质是学习数据中的统计规律或潜在结构。

  • 假设是输入空间,是隐式结构空间,无监督学习要学习的模型可表示为或条件概率分布

  1. 强化学习

  1. 半监督学习与主动学习

统计学习按照模型的种类,可分为:

  1. 概率模型和非概率模型 (二者区别不在于输入与输出映射关系,而在于模型内部结构)

  1. 概率模型:决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型。代表是概率图模型(贝叶斯网络、马尔科夫随机场、条件随机场)

  1. 非概率模型:感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析、神经网络

  1. 线性模型和非线性模型

  1. 线性模型:感知机、线性支持向量机、k近邻、k均值、潜在语义分析

  1. 非线性模型:核函数支持向量机、AdaBoost、神经网络

  1. 参数化模型和非参数化模型

按照算法来分,可以分为:在线学习和批量学习

按照技巧来分,可以分为:贝叶斯学习和核方法

1.2 统计学习三要素

统计学习三要素:模型、策略、算法。

在监督学习中,模型就是所要学习的条件概率分布或决策函数。算法指学习模型的具体计算方法,可以利用已有的最优化算法,有时也需要开发独自的最优化算法。策略是按照什么样的准则从模型的假设空间中选取最优模型。下面主要讲策略。

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

期望风险是模型关于联合分布的期望损失;经验风险是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。所以一个很自然地想法就是用经验风险估计期望风险。答案现实中样本往往是有限的,所以用经验风险估计期望风险往往不是很理想,要对经验风险进行一定矫正。

这就引出了监督学习两个基本策略:经验风险最小化结构风险最小化

经验风险最小化就是我们在监督学习训练模型的时候,最小化经验风险(训练集的平均损失);结构风险最小化等价于正则化,就是再经验风险上加上表示模型复杂度的正则化项或罚项。

经验或结构风险函数就是最优化的目标函数。

// 泛函:函数的函数。

1.3 泛化能力

泛化误差:学习到的模型对未知数据预测的误差,即为泛化误差。事实上,泛化误差就是所学习到的模型的期望风险。

泛化误差上界:TODO

1.4 生成模型与判别模型

监督学习方法可以分为 生成方法 和 判别方法,学到的模型分别是 生成模型 和 判别模型。

生成模型:由数据学习联合概率分布,然后求出条件概率分布作为预测的模型。即:

  • 这类方法之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。

  • 典型的生成模型:朴素贝叶斯法隐马尔可夫模型

判别模型:由数据直接学习决策函数或条件概率分布作为预测的模型。

  • 判别方法关心的是对给定的输入X,应该预测什么样的输出Y

  • 典型的判别模型:k近邻法、感知机、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

两类方法的优缺点:

  • 生成方法:

  • 生成方法可以还原出联合概率分布,判别方法不能

  • 生成方法的收敛速度更快

  • 当存在隐变量时,仍可以用生成方法学习,但不能用判别方法

  • 判别方法:

  • 判别方法直接学习条件概率或决策函数,直接面对预测,往往学习准确率更高;

  • 由于直接学习,可以对数据进行各种程度上的抽象,定义特征并使用特征,因此可以简化学习问题。

http://www.lryc.cn/news/35948.html

相关文章:

  • 阿里云EMR集群搭建及使用
  • 学习streamlit-4
  • 高级Oracle DBA面试题及答案
  • 程序员成长路线
  • 【Galois工具开发之路】关于类的重新装载思路
  • 哪款蓝牙耳机音质好?内行推荐四款高音质蓝牙耳机
  • Android程序自动在线升级安装
  • JS的BroadcastChannel与MessageChannel
  • nextjs开发 + vercel 部署 ssr ssg
  • Good Idea, 利用MySQL JSON特性优化千万级文库表
  • 【python游戏制作】快来跟愤怒的小鸟一起攻击肥猪们的堡垒吧
  • ARM 学习(一)
  • 深入分析Java的序列化与反序列化
  • 、Tomcat源码分析-类加载器
  • 反转链表相关的练习(下)
  • 2.进程和线程
  • C++回顾(十四)—— 函数模板
  • 如何做好项目各干系人的管理及应对?
  • Elasticsearch使用系列-ES增删查改基本操作+ik分词
  • 07-PL/SQL基础(if语句,case语句,循环语句)
  • 信捷 XDH Ethercat A_VELMOVE
  • 【专项训练】分治、回溯
  • Linux上安装配置ZooKeeper
  • idea leetcode插件无法登录
  • VR会议不断升级,为商务会谈打造云端洽谈服务!
  • Ubuntu系统开机自动挂载NTFS硬盘【超实用】
  • 淘宝十年资深架构师吐血总结淘宝的数据库架构设计和采用的技术手段。
  • 训练自己的GPT2-Chinese模型
  • springcloud3 fegin服务超时的配置和日志级别的配置2
  • 华为机试 HJ48 从单向链表中删除指定值的节点