当前位置: 首页 > news >正文

【ML】欠拟合和过拟合的一些判别和优化方法(吴恩达机器学习笔记)

吴恩达老师的机器学习教程笔记

减少误差的一些方法

  1. 获得更多的训练实例——解决高方差
  2. 尝试减少特征的数量——解决高方差
  3. 尝试获得更多的特征——解决高偏差
  4. 尝试增加多项式特征——解决高偏差
  5. 尝试减少正则化程度 λ——解决高偏差
  6. 尝试增加正则化程度 λ——解决高方差

什么是欠拟合?什么是过拟合?

欠拟合:在训练集上存在较大误差
过拟合:在训练集上误差较小,在测试集(实际使用)上误差较大

如何计算?
将数据集分为70%训练集,30%测试集。
在训练集上进行训练,在测试集上计算误差。

对于线性回归模型:利用测试集计算误差
对于逻辑回归模型:利用测试集计算误差、还要计算误分类比率(错误分类占总分类的比率)

多模型选择

假设有多个不同次数的二项式模型等待选择:
在这里插入图片描述
将训练集分为训练集60%,交叉验证集20%,测试集20%
模型选择的方法为:

  1. 使用训练集训练出 10 个模型
  2. 用 10 个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)
  3. 选取代价函数值最小的模型
  4. 用步骤 3 中选出的模型对测试集计算得出推广误差(代价函数的值)

判断欠拟合和过拟合

在这里插入图片描述

  1. 训练集误差和交叉验证集误差近似时:偏差/欠拟合
  2. 交叉验证集误差远大于训练集误差时:方差/过拟合

正则化方法来防止过拟合

在我们在训练模型的过程中,一般会使用一些正则化方法来防止过拟合。但是我们可能会正则化的程度太高或太小了,即我们在选择 λ 的值时也需要思考与刚才选择多项式模型次数类似的问题。
在这里插入图片描述
我们选择一系列的想要测试的 𝜆 值,通常是 0-10 之间的呈现 2 倍关系的值(如:0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10共 12 个)。我们同样把数据分为训练集、交叉验证集和测试集。
在这里插入图片描述
选择𝜆的方法为:
1.使用训练集训练出 12 个不同程度正则化的模型
2.用 12 个模型分别对交叉验证集计算的出交叉验证误差
3.选择得出交叉验证误差最小的模型
4.运用步骤 3 中选出模型对测试集计算得出推广误差,我们也可以同时将训练集和交叉验证集模型的代价函数误差与 λ 的值绘制在一张图表上:
在这里插入图片描述
1.当 𝜆 较小时,训练集误差较小(过拟合)而交叉验证集误差较大
2.𝜆 的增加,训练集误差不断增加(欠拟合),而交叉验证集误差则是先减小后增加

学习曲线

欠拟合状态:
在这里插入图片描述
随着训练集加入更多的数据,绘制误差,发现增加数据并不能减少误差。

过拟合状态:
在这里插入图片描述
欠拟合状态,随着测试集的增加,可以减少误差。

http://www.lryc.cn/news/230936.html

相关文章:

  • 服务器数据恢复—服务器发生故障导致数据丢失如何恢复服务器数据?
  • SLAM中提到的相机位姿到底指什么?
  • 《视觉SLAM十四讲》-- 后端 1(上)
  • 南昌市西湖区棒球特色规划
  • nginx启动命令
  • 防爆五参数气象仪的科技力量
  • J. Chem. Theory Comput. | AI驱动的柔性蛋白-小分子复合物建模
  • 数据库sql语句设置外键
  • excel在函数中插入函数
  • 保姆级前端翻牌效果(CSS)
  • Mac环境配置的相关知识
  • 业务连续性:确保稳健运营的关键战略
  • 【Pytorch和深度学习】栏目导读
  • sklearn笔记:neighbors.NearestNeighbors
  • V-for中 key 值的作用,如何选择key
  • linux内核驱动开发
  • 2.3.5 交换机的VRRP技术
  • Knowledge Graph Reasoning with Relational Digraph
  • 力扣203:移除链表元素
  • Moto edge s pro手机 WIFI和蓝牙连接不上 解决方法分享
  • 两万字图文详解!InnoDB锁专题!
  • 2023湖南省赛
  • AISchedule(3):基础生成表格
  • OpenAI 上线新功能力捧 RAG,开发者真的不需要向量数据库了?
  • PyCharm鼠标控制字体缩放
  • NI USRP RIO软件无线电
  • kicad源代码研究:symbol properties窗口中为SCH_SYMBOL添加或删除一个sch_field
  • httpClient超时时间详解与测试案例
  • 后端接口性能优化分析-数据库优化
  • 都很忙,哪里寻找时间?