计算学习理论(PAC学习、有限假设空间、VC维、Rademacher复杂度、稳定性)
主要研究经验误差与泛化误差之间的逼近程度。
常用不等式:
不等式:对任意凸函数
,有
不等式:若
为
个独立随机变量,且满足
,则对任意
,有
不等式:若
为
个独立随机变量,且对任意
,函数
满足
则对任意
,有
一、PAC 学习
旨在形式化地定义“学习”的数学本质,并分析算法在何种条件下能够高效地从数据中学习。
概念(
):样本空间到标记空间的映射(目标概念),目标概念构成的集合为概念类 (
)。
假设空间
:对给定的学习算法(它会把所有可能的目标概念集中起来构成该空间)来说,它所考虑的所有可能概念的集合(里面的叫假设,也是样本到标记的映射)。
最终的目的就是尽可能让算法学习到的假设接近目标概念。
辨识:对
,所有的
和分布
,若存在学习算法,其输出假设
满足
则说明该学习算法能从假设空间
中
辨识概念类
(这里的理解其实就和数学里面极限的定义差不多)。
可学习:在多项式时间内,利用合理数量的样本,以高概率学到一个近似正确的模型。
学习算法:与可学习的要求差不多,样本来自未知分布,样本数满足多项式界
,输出的假设
满足
的概率
,且算法运行时间为多项式级别。
样本复杂度:
,其中最小的
就是学习算法的样本复杂度。
二、有限假设空间
可分情形:
是指目标概念完全包含在假设类中,即存在至少一个假设能够完美拟合训练数据(误差为零,假设与样例标记一致);
样本复杂度对数依赖假设空间大小,算法只需拟合训练数据;
不可分情形(更加普遍):
假设类不必完全包含目标概念;
数据允许有噪声;
引理
(
不等式引出):若训练集
包含
个从分布
上独立同分布采样而得的样例,
,则对任意
,有
推论:若训练集
包含
个从分布
上独立同分布来样而得的样例,
,则对任意
,下式以至少
的概率成立:
上式表明,样例数目比较大的时候,经验误差可以比较好的近似到泛化误差
定理 1:若
为有限假设空间,
,则对任意
,有
三、VC 维
增长函数:对所有
,假设空间
的增长函数
为
即增长函数表示假设空间
对
个示例所能赋予标记的最大可能结果数(越大能力越强)。
定理
:对假设空间
和任意
有
对分:
中的假设对
中示例赋予标记的每种可能结果称为对
的一种“对分”;
打散:若假设空间
能实现示例集
上的所有对分,即
,则称示例集
能被假设空间
打散;
维:假设空间
的
维是能被
打散的最大示例集的大小,即
其中
等于多少,就意味着存在多大的示例集能被假设空间打散。
引理
(可算出增长函数的上届):若假设空间
的
维为
则对任意
有
推论
:若假设空间
的
维为
则对任意整数
有
定理
:若假设空间
的
维为
则对任意
和
有
定理
:任何
维有限的假设空间
都是(不可知)
可学习的。
四、Rademacher 复杂度
用于衡量假设类复杂度的重要工具。它比
维更精细,能够提供数据依赖的泛化误差界。
考虑实值函数空间
,令
,其中
,\mathcal{Z}、
对应的就是
、
。
函数空间
关于
的经验
复杂度
函数空间
关于
上分布
的
复杂度
函数空间
的泛化误差界(定理
):对实值函数空间
,根据分布
从
中独立同分布采样得到示例集
,对任意
,以至少
的概率有(这里的
是区间
上的实值函数,所以只适用于回归问题):
定理
:(二分类问题)对假设空间
,根据分布
从
中独立分布采样得到示例集
,对任意
,以至少
的概率有
基于
维的泛化误差界是分布无关、数据独立的,而基于
复杂度的泛化误差界与分布
有关,与数据
有关。换言之,基于
复杂度的泛化误差界依赖于具体学习问题上的数据分布。
定理
:假设空间
的
复杂度
与增长函数
满足
然后可推得
五、稳定性
泛化损失:
经验损失:
留一损失:
算法的均匀稳定性:
定义:对任何
,若学习算法
满足
则称
关于损失函数
满足
-均匀稳定性。
若损失函数
有界,即对所有
和
有
,则有
给定从分布
上独立同分布采样得到的大小为
的示例集
,若学习算法
满足关于损失函数
的
-均匀稳定性,且损失函数
的上界为
,则对任意
,以至少
的概率有:
注:稳定性分析不必考虑假设空间中所有可能的假设,只需根据算法自身的特性(稳定性)来讨论输出假设 的泛化误差界。
对损失函数
若学习算法
所输出的假设满足经验损失最小化,则称算法
满足经验风险最小化原则,简称算法是
的。
若学习算法
是
且稳定的,则假设空间
可学习。