当前位置: 首页 > news >正文

深入理解机器学习——偏差(Bias)与方差(Variance)

分类目录:《深入理解机器学习》总目录


偏差(Bias)与方差(Variance)是解释学习算法泛化性能的一种重要工具。偏差方差分解试图对学习算法的期望泛化错误率进行拆解,我们知道,算法在不同训练集上学得的结果很可能不同,即便这些训练集是来自同一个分布,对测试样本xxx,令yDy_DyD为在数据集中的标记,yyyxxx的真实标记f(x;D)f(x;D)f(x;D)为训练集DDD上学得模型fff在上的预测输出。以回归任务为例,学习算法的期望预测为:
f(x)=ED[f(x;D)]f(x)=E_D[f(x;D)]f(x)=ED[f(x;D)]
使用样本数相同的不同训练集产生的方差为:
Var(x)=ED[f(x;D)−f(x)]\text{Var}(x)=E_D[f(x;D)-f(x)]Var(x)=ED[f(x;D)f(x)]
噪声为:
ϵ2=ED[(yD−y)2]\epsilon^2=E_D[(y_D-y)^2]ϵ2=ED[(yDy)2]
期望输出与真实标记的差别称为偏差(Bias),即:
bias2(x)=(f(x)−y)2\text{bias}^2(x)=(f(x) - y)^2bias2(x)=(f(x)y)2
为便于讨论,假定噪声期望为零,即ED[(yD−y)]=0E_D[(y_D-y)]=0ED[(yDy)]=0。通过简单的多项式展开合并,可对算法的期望泛化误差进行分解:
ED[(f(x;D)−yD)2]=ED[(f(x;D)−fˉ(x)+fˉ(x)−yD)2]=ED[(f(x;D)−fˉ(x)]+(fˉ(x)−y)2+ED[(yD−y)2]=bias2(x)+Var(x)+ϵ2\begin{align*} E_D[(f(x; D) - y_D)^2] &= E_D[(f(x; D) - \bar{f}(x) + \bar{f}(x) - y_D)^2]\\ &= E_D[(f(x; D) - \bar{f}(x)] + (\bar{f}(x) - y)^2 + E_D[(y_D - y)^2]\\ &= \text{bias}^2(x) + \text{Var}(x) + \epsilon^2 \end{align*} ED[(f(x;D)yD)2]=ED[(f(x;D)fˉ(x)+fˉ(x)yD)2]=ED[(f(x;D)fˉ(x)]+(fˉ(x)y)2+ED[(yDy)2]=bias2(x)+Var(x)+ϵ2
也就是说,泛化误差可分解为偏差、方差与噪声之和。回顾偏差、方差、噪声的含义:偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。偏差方差分解说明,泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响小一般来说,偏差与方差是有冲突的,这称为偏差方差窘境(Bias-Variance Dilemma)。下图给出了一个示意图。给定学习任务,假定我们能控制学习算法的训练程度,则在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;随着训练程度的加深,学习器的拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学到,方差逐渐主导了泛化错误率:在训练程度充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的、非全局的特性被学习器学到了,则将发生过拟合,
偏差与方差

参考文献:
[1] 周志华. 机器学习[M]. 清华大学出版社, 2016.

http://www.lryc.cn/news/33276.html

相关文章:

  • 分布式新闻项目实战 - 13.项目部署_持续集成(Jenkins) ^_^ 完结啦 ~
  • Linux c/c++技术方向分析
  • JavaScript 高级3 :函数进阶
  • 【项目】Java树形结构集合分页,java对list集合进行分页
  • java.lang.IllegalArgumentException: itemView may not be null
  • [ 攻防演练演示篇 ] 利用 shiro 反序列化漏洞获取主机权限
  • 达人合作加持品牌布局,3.8女神玩转流量策略!
  • 观点丨Fortinet谈ChatGPT火爆引发的网络安全行业剧变
  • 工业企业用电损耗和降损措施研究
  • 高并发、高性能、高可用
  • 剑指 Offer 62. 圆圈中最后剩下的数字
  • 概率论小课堂:高斯分布(正确认识大概率事件)
  • 剑指 Offer 43. 1~n 整数中 1 出现的次数
  • 如何成为程序员中的牛人/高手?
  • 云原生时代顶流消息中间件Apache Pulsar部署实操之轻量级计算框架
  • 数据结构刷题(十九):77组合、216组合总和III
  • PyQt 做美*女GIF设置桌面,每天都很爱~
  • [渗透测试笔记] 54.日薪2k的蓝队hw中级定级必备笔记系列篇3之域渗透黄金票据和白银票据
  • 【异常】Spring Cloud Gateway网关自定义过滤器无法获取到请求体body的内容?不存在的!
  • CNN 卷积神经网络对染色血液细胞分类(blood-cells)
  • Kubernetes学习(三)Service
  • 数学小课堂:古德-图灵折扣估计法和插值法(防范黑天鹅事件的方法)
  • redis getshell方法
  • 【ONE·C || 程序编译简述】
  • MGAT: Multimodal Graph Attention Network for Recommendation
  • 在SNAP中用sentinel-1数据做InSAR测量,以门源地震为例
  • MySQL常用函数
  • 51单片机数字电子钟开题报告
  • day7 HTTP协议
  • 3DCAT+一汽奥迪:共建线上个性化订车实时云渲染方案