当前位置: 首页 > news >正文

机器学习笔记——欠拟合、过拟合

欠拟合

将训练损失和测试损失都比较大的拟合叫欠拟合,那么他的预测精度很低
1.一般出现在模型的复杂度小于数据本身的复杂度导致的,这个可能就是模型对数据的分布和实际数据分布之间的差异,这个就可能需要更换模型
2.还可能出现在梯度下降算法中,迭代次数少或者学习率低的情况,这个可以有挽留机会,通过增加次数、学习率就可以了

过拟合

训练损失小而测试损失大的情况叫过拟合
欠拟合就是模型过度拟合到观测数据中不具有普遍的部分,以至于在对未观测的数据标签进行预测时出现较大的偏差,可能出现在模型的复杂度大于数据的复杂度
更一般的,欠拟合和过拟合取决于模型本身的复杂度

数据的模式

其实我们在监督学习中,标签y和变量x直接的关系就是所谓的模式记作f(x),机器学习的任务就是给出数据,找到这种模式

数据的噪声

是指数据点偏离数据模式的随机信息

正则化约束

过拟合的本质是由于模型的参数过于复杂,所以需要引入某种限制,防止过拟合的方向发展,这样的约束称为正则化。
在线性回归中如果数据N小于数据特征d就会出现过拟合就要在损失函数中加入一个正则项λ/2*||θ||^2,这称为L2范数,运用此方法的线性回归叫岭回归。此外还可以采用L0范数,衡量向量的非零元素个数,λ*||θ|| 这样的约束称为lasso回归

超参数的特点

不通过模型优化而需要人为指定的参数就叫超参数,调整的过程叫调参
选择模型和调整参数的机器学习的必要步骤

数据集划分与交叉验证

为进一步消除数据分布的影响,在划分训练集和验证集时,采用随机划分、
交叉验证
交叉验证就是将数据集分成k份,每一份单独训练,在i次训练中把第i份作为验证集,其余作为训练集,然后取平均损失。k一般取5-10,因为k小受随机性影响大,但是方差小,反之。

http://www.lryc.cn/news/359601.html

相关文章:

  • 【二进制部署k8s-1.29.4】七、验证master的安装
  • springboot获取当前数据库连接
  • 【学习笔记】Windows GDI绘图(九)Graphics详解(上)
  • 公告:公众号铁粉粉丝介绍以及说明
  • BioTech - 使用 CombFold 算法 实现 大型蛋白质复合物结构 的组装过程
  • 代码随想录算法训练营第36期DAY46
  • 港湾周评|李小加“刀刃向内”裁员
  • 超大功率光伏并网逆变器学习(三相)
  • 大豆、棉花深度学习数据集大合集
  • 教育数字展馆助力全球教育传播,科技引领数字化教育潮流
  • 14.微信小程序之地理定位功能
  • 理解lambda表达式
  • 【面试】Java的前端编译器和后端编译器
  • 教育小程序的性能优化:从前端到后端的综合提升策略
  • 单链表实现通讯录
  • Linux 命令操作技巧
  • 深度学习21天 —— 卷积神经网络(CNN):识别验证码( 第12天)
  • 利用 Docker 简化Redis部署:快速搭建Redis服务
  • Web前端框架:深入探索与实践
  • 【算法】贪心算法——柠檬水找零
  • Jmeter安装教程
  • 关于磁盘管理
  • 人大金仓数据库大小写不敏感确认
  • 【Java】还有人不懂继承?25 个 Case 包教包会
  • Qt实现窗口失去焦点抖动功能
  • Flink 数据源
  • 在本地电脑中如何用命令操作远程服务器上的数据库
  • uniApp子组件监听数据的变化的方法之一
  • Python容器化技术的15个Docker实践
  • QT天气预报项目(写在简历上)