当前位置: 首页 > news >正文

计算学习理论(PAC学习、有限假设空间、VC维、Rademacher复杂度、稳定性)

  • 主要研究经验误差泛化误差之间的逼近程度。

  • 常用不等式:

    • \mathrm{Jensen} 不等式:对任意凸函数 f(x),有

      f\big(E(x)\big)\leqslant E\big(f(x)\big)\space.

    • \mathrm{Hoeffding} 不等式:若 x_1,x_2,\dots,x_mm 个独立随机变量,且满足 0\leqslant x_i\leqslant 1,则对任意 \epsilon>0,有
      P\Bigg(\frac{1}{m}\sum^m_{i=1}x_i-\frac{1}{m}\sum^m_{i=1}E(x_i)\geqslant\epsilon\Bigg)\leqslant e^{-2m\epsilon^2}\space,\\ P\Bigg(\Bigg|\frac{1}{m}\sum^m_{i=1}x_i-\frac{1}{m}\sum^m_{i=1}E(x_i)\Bigg|\geqslant\epsilon\Bigg)\leqslant 2e^{-2m\epsilon^2}\space.

    • \mathrm{McDiarmid} 不等式:若 x_1,x_2,\dots,x_mm 个独立随机变量,且对任意 1\leqslant i\leqslant m,函数 f 满足

      \sup_{x_1,\dots,x_m,x_i'}|f(x_1,\dots,x_m)-f(x_1,\dots,x_{i-1},x_i',x_{i+1},\dots,x_m)|\leqslant c_i\space,

      则对任意 \epsilon>0,有
      P(f(x_1,\dots,x_m)-E(f(x_1,\dots,x_m))\geqslant\epsilon)\leqslant e^{\frac{-2\epsilon^2}{\sum_ic_i^2}}\space,\\ P(|f(x_1,\dots,x_m)-E(f(x_1,\dots,x_m))|\geqslant\epsilon)\leqslant 2e^{\frac{-2\epsilon^2}{\sum_ic_i^2}}\space.

一、PAC 学习

  • 旨在形式化地定义“学习”的数学本质,并分析算法在何种条件下能够高效地从数据中学习。

  • 概念(c:样本空间到标记空间的映射(目标概念),目标概念构成的集合为概念类 (C

  • 假设空间 \mathcal{H}:对给定的学习算法(它会把所有可能的目标概念集中起来构成该空间)来说,它所考虑的所有可能概念的集合(里面的叫假设,也是样本到标记的映射)。

  • 最终的目的就是尽可能让算法学习到的假设接近目标概念。

  • \mathrm{PAC} 辨识:对 0<\epsilon,\delta<1,所有的 c\in C 和分布 \mathcal{D},若存在学习算法,其输出假设 h\in\mathcal{H} 满足

    P(E(h)\leqslant\epsilon)\geqslant1-\delta\space,

    则说明该学习算法能从假设空间 \mathcal{H}\mathrm{PAC} 辨识概念类 C(这里的理解其实就和数学里面极限的定义差不多)。

  • \mathrm{PAC} 可学习:在多项式时间内,利用合理数量的样本,以高概率学到一个近似正确的模型。

  • \mathrm{PAC} 学习算法:与可学习的要求差不多,样本来自未知分布,样本数满足多项式界 n=\mathrm{poly(\frac{1}{\epsilon},\frac{1}{\delta},size(c))},输出的假设 h 满足 \mathrm{err}(h)\leq\epsilon 的概率 \geq1-\delta,且算法运行时间为多项式级别。

  • 样本复杂度m\geqslant\mathrm{poly(\frac{1}{\epsilon},\frac{1}{\delta},size(c))},其中最小的 m 就是学习算法的样本复杂度。

二、有限假设空间

  • 可分情形:

    • 是指目标概念完全包含在假设类中,即存在至少一个假设能够完美拟合训练数据(误差为零,假设与样例标记一致);

    • 样本复杂度对数依赖假设空间大小,算法只需拟合训练数据;

  • 不可分情形(更加普遍):

    • 假设类不必完全包含目标概念;

    • 数据允许有噪声;

    • 引理 1\mathrm{Hoeffding} 不等式引出):若训练集 D 包含 m 个从分布 \mathcal{D} 上独立同分布采样而得的样例,0<\epsilon<1,则对任意 h\in\mathcal{H},有

      P(\hat{E}(h)-E(h)\geqslant\epsilon)\leqslant e^{-2m\epsilon^2}\space,\\ P(E(h)-\hat{E}(h)\geqslant\epsilon)\leqslant e^{-2m\epsilon^2}\space,\\ P(|E(h)-\hat{E}(h)|\geqslant\epsilon)\leqslant 2e^{-2m\epsilon^2}\space.

      • 推论:若训练集 D 包含 m 个从分布 \mathcal{D} 上独立同分布来样而得的样例,0<\epsilon<1,则对任意 h\in\mathcal{H},下式以至少 1-\delta 的概率成立:

        \hat{E}(h)-\sqrt{\frac{\ln(\frac{2}{\delta})}{2m}}\leqslant E(h)\leqslant\hat{E}(h)+\sqrt{\frac{\ln\frac{2}{\delta}}{2m}}\space.

        上式表明,样例数目比较大的时候,经验误差可以比较好的近似到泛化误差

    • 定理 1:若 \mathcal{H} 为有限假设空间,0<\delta<1,则对任意 h\in\mathcal{H},有

      P\Big(\big|E(h)-\hat{E}(h)\big|\leqslant\sqrt{\frac{\ln|\mathcal{H}|+\ln(\frac{2}{\delta})}{2m}}\Big)\geqslant1-\delta\space.

三、VC 维

  • 增长函数:对所有 m\in\mathbb{N},假设空间 \mathcal{H} 的增长函数 \prod_{\mathcal{H}}(m)

    \prod_{\mathcal{H}}(m)=\max_{\{x_1,\dots,x_m\}\subseteq \mathcal{X}}\big|\{(h(x_1),\dots,h(x_m))|h\in\mathcal{H}\}\big|\space.

    即增长函数表示假设空间 \mathcal{H}m 个示例所能赋予标记的最大可能结果数(越大能力越强)。

  • 定理 2:对假设空间 \mathcal{H},m\in\mathbb{N},0<\epsilon<1 和任意 h\in\mathcal{H}P(|E(h)-\hat{E}(h)|>\epsilon)\leqslant4\prod_\mathcal{H}(2m)e^{(-\frac{m\epsilon^2}{8})}.

    • 对分\mathcal{H} 中的假设对 D 中示例赋予标记的每种可能结果称为对 D 的一种“对分”;

    • 打散:若假设空间 \mathcal{H} 能实现示例集 D 上的所有对分,即 \prod_{\mathcal{H}}(m)=2^m,则称示例集 D 能被假设空间 \mathcal{H} 打散

  • \mathrm{VC}:假设空间 \mathcal{H}\mathrm{VC} 维是能被 \mathcal{H} 打散的最大示例集的大小,即

    \mathrm{VC}(\mathcal{H})=\max\{m:\prod_{\mathcal{H}}(m)=2^m\}\space.

    其中 \mathrm{VC}(\mathcal{H}) 等于多少,就意味着存在多大的示例集能被假设空间打散。

  • 引理 2(可算出增长函数的上届):若假设空间 \mathcal{H}\mathrm{VC} 维为 d 则对任意 m\in\mathbb{N}

    \prod_{\mathcal{H}}(m)\leqslant\sum_{i=0}^{d}\left(\,\begin{array}{c}m\\i\end{array}\,\right)

    • 推论 2:若假设空间 \mathcal{H}\mathrm{VC} 维为 d 则对任意整数 m\geqslant d

      \prod_{\mathcal{H}}(m)\leqslant(\frac{e\cdot m}{d})^d\space.

  • 定理 3:若假设空间 \mathcal{H}\mathrm{VC} 维为 d 则对任意 m>d,0<\delta<1h\in\mathcal{H}

    P\Bigg(E(h)-\hat{E}(h)\leqslant\sqrt{\frac{8d\ln{\frac{2em}{d}+8\ln{\frac{4}{\delta}}}}{m}}\Bigg)\geqslant1-\delta\space.

  • 定理 4:任何 \mathrm{VC} 维有限的假设空间 \mathcal{H} 都是(不可知)\mathrm{PAC} 可学习的。

四、Rademacher 复杂度

  • 用于衡量假设类复杂度的重要工具。它比 \mathrm{VC} 维更精细,能够提供数据依赖的泛化误差界。

  • 考虑实值函数空间 \mathcal{F}:\mathcal{Z}\rightarrow\mathbb{R},令 Z=\{z_1,z_2,\dots,z_m\},其中 z_i\in\mathcal{Z},\mathcal{Z}、\mathcal{F} 对应的就是 \mathcal{X}\mathcal{H}

    • 函数空间 \mathcal{F} 关于 Z 的经验 \mathrm{Rademacher} 复杂度

      \hat{R}_{Z}(\mathcal{F})=\mathbb{E}_\sigma\big[\sup_{f\in\mathcal{F}}\frac{1}{m}\sum^m_{i=1}\sigma_if(z_i)\big]\space.

    • 函数空间 \mathcal{F} 关于 \mathcal{Z} 上分布 D\mathrm{Rademacher} 复杂度

      R_m(\mathcal{F})=\mathbb{E}_{Z\subseteq\mathcal{Z}:|Z|=m}\big[\hat{R}_Z(\mathcal{F})\big]\space.

  • 函数空间 \mathcal{F} 的泛化误差界(定理 5):对实值函数空间 \mathcal{F:Z}\rightarrow[0,1],根据分布 \mathcal{D}\mathcal{Z} 中独立同分布采样得到示例集 Z=\{z_1,z_2,\dots,z_m\},z_i\in\mathcal{Z},0<\delta<1,对任意 f\in\mathcal{F},以至少 1-\delta 的概率有(这里的 \mathcal{F} 是区间 [0,1] 上的实值函数,所以只适用于回归问题):

    \mathbb{E}\big[f(z)\big]\leqslant\frac{1}{m}\sum^m_{i=1}f(z_i)+2R_m(\mathcal{F})+\sqrt{\frac{\ln(\frac{1}{\delta})}{2m}}\space,\\ \mathbb{E}\big[f(z)\big]\leqslant\frac{1}{m}\sum^m_{i=1}f(z_i)+2\hat{R}_Z(\mathcal{F})+3\sqrt{\frac{\ln(\frac{2}{\delta})}{2m}}\space.

  • 定理 6:(二分类问题)对假设空间 \mathcal{H:X}\rightarrow\{-1,+1\},根据分布 \mathcal{D}\mathcal{X} 中独立分布采样得到示例集 D=\{x_1,x_2,\dots,x_m\},x_i\in\mathcal{X},0<\delta<1,对任意 h\in\mathcal{H},以至少 1-\delta 的概率有

    E(h)\leqslant\hat{E}(h)+R_m(\mathcal{H})+\sqrt{\frac{\ln{\frac{1}{\delta}}}{2m}}\space,\\ E(h)\leqslant\hat{E}(h)+R_D(\mathcal{H})+3\sqrt{\frac{\ln{\frac{2}{\delta}}}{2m}}\space.

  • 基于 \mathrm{VC} 维的泛化误差界是分布无关、数据独立的,而基于 \mathrm{Rademacher} 复杂度的泛化误差界与分布 \mathcal{D} 有关,与数据 D 有关。换言之,基于 \mathrm{Rademacher} 复杂度的泛化误差界依赖于具体学习问题上的数据分布。

  • 定理 7:假设空间 \mathcal{H}\mathrm{Rademacher} 复杂度 R_m(\mathcal{H}) 与增长函数 \prod_{\mathcal{H}}(m) 满足

    R_m(\mathcal{H})\leqslant\sqrt{\frac{2\ln\prod_{\mathcal{H}}(m)}{m}}\space.

    然后可推得

    E(h)\leqslant\hat{E}(h)+\sqrt{\frac{2d\ln{\frac{em}{d}}}{m}}+\sqrt{\frac{\ln\frac{1}{\delta}}{2m}}\space.

五、稳定性

  • 泛化损失

    \ell{(\mathfrak{L},D)}=\mathbb{E}_{x\in\mathcal{X},z}[\ell{(\mathfrak{L},z)}]\space.

  • 经验损失

    \hat{\ell}(\mathfrak{L},D)=\frac{1}{m}\sum_{i=1}^m\ell{(\mathfrak{L},z_i)}\space.

  • 留一损失

    \ell_{\mathrm{loo}}(\mathfrak{L}, D) = \frac{1}{m} \sum_{i=1}^{m} \ell(\mathfrak{L}_{D^{\setminus i}}, z_i)

  • 算法的均匀稳定性

    • 定义:对任何 x\in\mathcal{X},z=(x,y),若学习算法 \mathfrak{L} 满足

      \big|\ell{(\mathfrak{L}_D,z)}-\ell{(\mathfrak{L}_{D^{\setminus i}},z)}\big|\leqslant\beta\space,\space i=1,2,\dots,m,

      则称 \mathfrak{L} 关于损失函数 \ell 满足 \beta-均匀稳定性。

    • 若损失函数 \ell 有界,即对所有 Dz=(x,y)0\leqslant l(\mathfrak{L}_D,z)\leqslant M,则有

      • 给定从分布 \mathcal{D} 上独立同分布采样得到的大小为 m 的示例集 D,若学习算法 \mathfrak{L} 满足关于损失函数 \ell\beta-均匀稳定性,且损失函数 \ell 的上界为 M,0<\delta<1,则对任意 m\geqslant1,以至少 1-\delta 的概率有:

        \ell{(\mathfrak{L},D)}\leqslant\hat{\ell}(\mathfrak{L},D)+2\beta+(4m\beta+M)\sqrt{\frac{\ln{\frac{1}{\delta}}}{2m}}\space,\\ \ell{(\mathfrak{L},D)}\leqslant\ell_{loo}(\mathfrak{L},D)+\beta+(4m\beta+M)\sqrt{\frac{\ln{\frac{1}{\delta}}}{2m}}\space.

注:稳定性分析不必考虑假设空间中所有可能的假设,只需根据算法自身的特性(稳定性)来讨论输出假设 \mathfrak{L}_D 的泛化误差界。

  • 对损失函数 \ell 若学习算法 \mathfrak{L} 所输出的假设满足经验损失最小化,则称算法 \mathfrak{L} 满足经验风险最小化原则,简称算法是 \mathrm{ERM} 的。

  • 若学习算法 \mathfrak{L}\mathrm{ERM} 且稳定的,则假设空间 \mathcal{H} 可学习。

http://www.lryc.cn/news/608514.html

相关文章:

  • Java内存模型(Java Memory Model,JMM)
  • 网安-中间件-weblogic(updating..)
  • 数据结构初学习、单向链表
  • 暑期算法训练.13
  • 什么是DOM和BOM?
  • 智能手表:电源检查
  • 入门MicroPython+ESP32:安装逗脑IDE及驱动
  • JVM 03 类加载机制
  • 堆----1.数组中的第K个最大元素
  • 高效游戏状态管理:使用双模式位运算与数学运算
  • 关于人工智能AI>ML>DL>transformer及NLP的关系
  • springboot大学生成绩管理系统设计与实现
  • NCV8402ASTT1G自保护N沟道功率MOSFET安森美/ONSEMI 过流过温保护汽车级驱动NCV8402ASTT1
  • 动态规划经典模型:双数组问题的通用解决框架与实战
  • Vue3核心语法进阶(computed与监听)
  • 衡石科技实时指标引擎解析:如何实现毫秒级响应万亿级数据的增量计算?
  • 【c#窗体荔枝计算乘法,两数相乘】2022-10-6
  • 【学习笔记】Java并发编程的艺术——第1章 并发编程的挑战
  • Python打卡Day30 模块和库的导入
  • 12:java学习笔记:多维数组1
  • 如何分析Linux内存性能问题
  • 深度学习(鱼书)day09--与学习相关的技巧(前三节)
  • 2025牛客暑期多校训练营1(G,E,L,K,I)
  • 力扣 hot100 Day63
  • 使用 BERT 的 NSP 实现语义感知切片 —— 提升 RAG 系统的检索质量
  • Java试题-选择题(6)
  • 滚珠花键在汽车制造中有哪些高要求?
  • 记录一次Spring Cloud Gateway配置的跨域处理:解决 ‘Access-Control-Allow-Origin‘ 头包含多个值的问题
  • JavaScript将String转为base64 笔记250802
  • GCC(GNU Compiler Collection)与人工智能实例