当前位置: 首页 > news >正文

【机器学习笔记】5 机器学习实践

数据集划分

子集划分

训练集(Training Set):帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。
验证集(Validation Set):也叫做开发集( Dev Set ),用来做模型选择(model selection),即做模型的最终优化及确定的,用来辅助我们的模型的构建,即训练超参数,可选
测试集(Test Set): 为了测试已经训练好的模型的精确度。
在这里插入图片描述
三者划分:训练集、验证集、测试集,区别与数据量有关
机器学习:60%,20%,20%;70%,10%,20%(不划验证集就75%,25%)
深度学习:98%,1%,1% (假设百万条数据)

交叉验证

在这里插入图片描述

  1. 使用训练集训练出k个模型
  2. 用k个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)
  3. 选取代价函数值最小的模型
  4. 用步骤3中选出的模型对测试集计算得出推广误差(代价函数的值)

不平衡数据的处理

数据不平衡是指数据集中各类样本数量不均衡的情况.
常用不平衡处理方法有采样和代价敏感学习
采样欠采样、过采样和综合采样的方法
在这里插入图片描述
SMOTE(Synthetic Minority Over-sampling Technique)算法是过采样中比较常用的一种。算法的思想是合成新的少数类样本,而不是简单地复制样本。算法过程如图:
在这里插入图片描述
代价敏感学习
代价敏感学习是指为不同类别的样本提供不同的权重,从而让机器学习模型进行学习的一种方法
比如风控或者入侵检测,这两类任务都具有严重的数据不平衡问题,可以在算法学习的时候,为少类样本设置更高的学习权重,从而让算法更加专注于少类样本的分类情况,提高对少类样本分类的查全率,但是也会将很多多类样本分类为少类样本,降低少类样本分类的查准率。

评价指标(分类问题)

在这里插入图片描述
例: 有100张照片,其中,猫的照片有60张,狗的照片是40张。
输入这100张照片进行二分类识别,找出这100张照片中的所有的猫。
正例(Positives):识别对的
负例(Negatives):识别错的
TP、TN对角线的数据越多越好
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
AUC是ROC曲线下的面积,面积越大越好
PR曲线是精度和昭回度的曲线,曲线下的面积越大越好

正则化、偏差与方差

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
模型复杂度与误差的关系,一般来说,随着模型复杂度的增加,方差会逐渐增大,偏差会逐渐减小,在虚线处,差不多是模型复杂度的最恰当的选择,其“偏差”和“方差”也都适度,才能“适度拟合”
在这里插入图片描述
训练集误差和交叉验证集误差近似时:偏差/欠拟合
交叉验证集误差远大于训练集误差时:方差/过拟合

在这里插入图片描述

  1. 获得更多的训练实例——解决高方差
  2. 尝试减少特征的数量——解决高方差
  3. 尝试获得更多的特征——解决高偏差
  4. 尝试增加多项式特征——解决高偏差
  5. 尝试减少正则化程度λ——解决高偏差
  6. 尝试增加正则化程度λ——解决高方差
    在这里插入图片描述
http://www.lryc.cn/news/300349.html

相关文章:

  • C++ //练习 7.5 在你的Person类中提供一些操作使其能够返回姓名和住址。这些函数是否应该是const的呢?解释原因。
  • python系统学习Day2
  • 学习笔记——ENM模拟
  • 数值类型的运算方式总结
  • 【Redis快速入门】Redis三种集群搭建配置(主从集群、哨兵集群、分片集群)
  • [嵌入式系统-14]:常见实时嵌入式操作系统比较:RT-Thread、uC/OS-II和FreeRTOS、Linux
  • 基于AI Agent探讨:安全领域下的AI应用范式
  • Stable Diffusion 模型下载:ToonYou(平涂卡通)
  • 机器学习:分类决策树(Python)
  • 红队打靶练习:HACK ME PLEASE: 1
  • 《VulnHub》GoldenEye:1
  • html的表格标签
  • 蓝桥杯(Web大学组)2022省赛真题:展开你的扇子
  • 复习基础知识1
  • java8-用流收集数据-6
  • [前端开发] JavaScript基础知识 [上]
  • 初识Qt | 从安装到编写Hello World程序
  • 机器学习:过拟合和欠拟合的介绍与解决方法
  • 变分自编码器(VAE)PyTorch Lightning 实现
  • 设备驱动开发_1
  • C语言位域(Bit Fields)知识点精要解析
  • 离散数学——图论(笔记及思维导图)
  • opencv图像像素的读写操作
  • Java学习第十四节之冒泡排序
  • 第1章 计算机网络体系结构-1.1计算机网络概述
  • 蓝桥杯:C++排序
  • 数据结构-堆
  • 奔跑吧小恐龙(Java)
  • Ubuntu 1804 And Above Coredump Settings
  • docker 2:安装