当前位置: 首页 > article >正文

机器学习的数学基础:假设检验

假设检验

默认以错误率为性能度量,错误率由下式给出:

E ( f , D ) = ∫ x ∼ D I I ( f ( x ) ≠ y ) p ( x ) d x E(f,\mathcal{D})=\int_{\boldsymbol{x}\sim \mathcal{D}}\mathbb{II}(f(\boldsymbol{x})\ne y )p(\boldsymbol{x})\text{d}\boldsymbol{x} E(f,D)=xDII(f(x)=y)p(x)dx

假设检验中的"假设"是对学习泛化错误率分布的某种判断或者猜想,例如:

ε = ε 0 \varepsilon=\varepsilon_0 ε=ε0

其中,我们 ε 0 \varepsilon_0 ε0为测试错误率是已知的。

对单个学习器泛化能力的假设检验

对于一个样本上的留出法得到的错误率 ε 0 \varepsilon_0 ε0,这意味着 m m m个测试样本中,恰好有 m × ε 0 m\times \varepsilon_0 m×ε0个错误分类。假设测试样本是从总体中独立同分布采样获得,那么泛化错误率为 ε \varepsilon ε的学习器,将其中 m × ε 0 m\times \varepsilon_0 m×ε0个分类错误,其余分类正确的概率为:

单次留出法
P ( ε ; ε 0 ) = ( m m × ε 0 ) ε ε 0 × m ( 1 − ε ) m − ε 0 × m P(\varepsilon;\varepsilon_0)=\binom{m}{m\times \varepsilon_0}\varepsilon^{\varepsilon_0\times m}(1-\varepsilon)^{m-\varepsilon_0 \times m} P(ε;ε0)=(m×ε0m)εε0×m(1ε)mε0×m

所以由极值条件得到:

∂ P ∂ ε = 0 \frac{\partial P}{\partial \varepsilon}=0 εP=0

然后选取一个显著性水平 α \alpha α,对于 ε ∼ B ( m , ε 0 ) \varepsilon \sim B(m,\varepsilon_0) εB(m,ε0),我们假设 ε ≤ ε ′ \varepsilon\leq\varepsilon^{\prime} εε,满足:

$$
\overline{\varepsilon}=\min \varepsilon


\mathbf{s.t.}:
\sum_{i=\varepsilon^{\prime}\times m+1}{m}\binom{m}{i}\varepsilon{i}(1-\varepsilon)^{m-i}
$$

若此时 ε ≤ ε ‾ \varepsilon \leq \overline{\varepsilon} εε则有 1 − α 1-\alpha 1α的概率认为,学习器的泛化错误率不大于 ε ′ \varepsilon^{\prime} ε

多次留出法或交叉验证法

类似的,假定我们得到了 k k k个测试错误率, ε ^ 1 \hat{\varepsilon}_1 ε^1, ε ^ 2 \hat{\varepsilon}_2 ε^2, ⋯ \cdots , ε ^ k \hat{\varepsilon}_k ε^k,则平均测试错误率 μ \mu μ和方差 σ 2 \sigma^2 σ2分别为:

μ = 1 k ∑ i = 1 k ε ^ i \mu=\frac{1}{k}\sum_{i=1}^{k}\hat{\varepsilon}_i μ=k1i=1kε^i

σ 2 = 1 k − 1 ∑ i = 1 k ( ε ^ i − μ ) 2 \sigma^2=\frac{1}{k-1}\sum_{i=1}^{k}(\hat{\varepsilon}_i-\mu)^2 σ2=k11i=1k(ε^iμ)2
其中有假设:
每个测试错误率 ε ^ 1 , ε ^ 2 , … , ε ^ k \hat{\varepsilon}_1, \hat{\varepsilon}_2, \ldots, \hat{\varepsilon}_k ε^1,ε^2,,ε^k 必须是独立同分布(independent and identically distributed, i.i.d.)的随机变量。且样本量足够大或者它们服从正态分布。

则:

τ t = ( μ − ε 0 ) σ k ∼ t ( k − 1 ) \tau_t=\frac{(\mu-\varepsilon_0)}{\frac{\sigma}{\sqrt{k}}}\sim t(k-1) τt=k σ(με0)t(k1)

对两个学习器泛化能力的假设检验

对于两个学习器 A A A B B B,使用 k k k折交叉验证法得到: ε 1 A \varepsilon_{1}^A ε1A, ε 2 A \varepsilon_{2}^A ε2A, … \dots ε k A \varepsilon_{k}^A εkA ε 1 B \varepsilon_{1}^B ε1B, ε 2 B \varepsilon_{2}^B ε2B, … \dots ε k B \varepsilon_{k}^B εkB

我们是对

ε i A = ε i B \varepsilon_{i}^A=\varepsilon_{i}^B εiA=εiB

进行假设,取独立变量:

Δ i = ε i A − ε i B \Delta_i=\varepsilon_{i}^A-\varepsilon_{i}^B Δi=εiAεiB

对样本均值进行标准化得到:

τ t = μ σ k ∼ t ( k − 1 ) \tau_t=\frac{\mu}{\frac{\sigma}{\sqrt{k}}}\sim t(k-1) τt=k σμt(k1)

5×2交叉验证

其统计量为:
τ t = μ 0.2 ∑ i = 1 5 σ i 2 ∼ t ( 4 ) \tau_t=\frac{\mu}{\sqrt{0.2\sum\limits_{i=1}^{5}}\sigma^2_i}\sim t(4) τt=0.2i=15 σi2μt(4)

McNemar检验

对于二分类问题,我们通过列联表,基于两学习器的性能相同的假设,构造统计量:

方法B 阳性方法B 阴性
方法A 阳性 a a a b b b
方法A 阴性 c c c d d d

τ χ 2 = ( ∣ b − c ∣ − 1 ) 2 b + c ∼ χ 2 ( 1 ) \tau_{\chi^2}=\frac{(|b-c|-1)^2}{b+c} \sim \chi^2(1) τχ2=b+c(bc1)2χ2(1)

对多于两个学习器泛化能力的假设检验

对多个算法,要进行Friedman检验Nemenyi检验

http://www.lryc.cn/news/2401919.html

相关文章:

  • 余氯传感器在智慧水务系统中如何实现IoT集成
  • 操作系统学习(九)——存储系统
  • 服务器安装软件失败或缺依赖怎么办?
  • linux nm/objdump/readelf/addr2line命令详解
  • 006网上订餐系统技术解析:打造高效便捷的餐饮服务平台
  • [10-2]MPU6050简介 江协科技学习笔记(22个知识点)
  • 基于行为分析的下一代安全防御指南
  • Redis持久化机制详解:RDB与AOF的深度剖析
  • 记录一次 apt-key curl导入失败的处理方式
  • Spring Boot 3.X 下Redis缓存的尝试(二):自动注解实现自动化缓存操作
  • 【03】完整开发腾讯云播放器SDK的UniApp官方UTS插件——优雅草上架插件市场-卓伊凡
  • C:\Users\中文名修改为英文名
  • Web 架构相关文章目录(持续更新中)
  • Redis 安装配置和性能优化
  • 购物商城网站 Java+Vue.js+SpringBoot,包括商家管理、商品分类管理、商品管理、在线客服管理、购物订单模块
  • PostgreSQL 安全纵深防御:从权限到加密
  • 【美团技术团队】从实际案例聊聊Java应用的GC优化
  • 在word中点击zotero Add/Edit Citation没有反应的解决办法
  • 整合swagger,以及Knife4j优化界面
  • Unity | AmplifyShaderEditor插件基础(第四集:简易shader)
  • 【安全攻防与漏洞】​​量子计算对HTTPS的威胁:后量子密码学进展
  • linux C语言中的动态库 静态库说明
  • Flash烧录速度和加载配置速度(纯FPGA ZYNQ)
  • 解构与重构:PLM 系统如何从管理工具进化为创新操作系统?
  • Redis:介绍和认识,通用命令,数据类型和内部编码,单线程模型
  • N2语法 強調、限定
  • OpenAI 即将推出 GPT-5:开启多模态、持续记忆对话新时代
  • 《前端面试题:CSS预处理器(Sass、Less等)》
  • 嵌入式开发之STM32学习笔记day20
  • vue-19(Vuex异步操作和变更)