当前位置: 首页 > news >正文

模型训练之数据集

我们知道人工智能的四大要素:数据、算法、算力、场景。我们训练模型离不开数据

目标

在这里插入图片描述

一、数据集划分

定义
数据集:训练集是一组训练数据。
样本:一组数据中一个数据
特征:反映样本在某方面的表现、属性或性质事项

训练集:用来构建机器学习模型,机器通过数据来确定模型参数的过程称之为学习(训练)。
验证集 :辅助构建模型,用于在构建过程中评估模型,从而调整模型 超参数。
测试集:用于模型构建结束,验证最终模型的性能。
在这里插入图片描述

二、数据类型

1、图像、视频:一般用卷积神经网络来处理,非结构化数据
2、语音:序列数据。非结构化数据
3、文本:序列数据。非结构化数据
4、时序数据:序列数据。一般用循环神经网络来处理

三、数据集分割

目的:为了保证训练集、验证集、测试集是同分布的
方法:留出法、K-折线交叉验证、Holdout交叉验证、自助法等

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
四、偏差与方差
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/393419.html

相关文章:

  • 【TB作品】数码管独立按键密码锁,ATMEGA16单片机,Proteus仿真 atmega16数码管独立按键密码锁
  • 数据库主从复制
  • 昇思25天学习打卡营第13天|BERT
  • 跨平台书签管理器 - Raindrop
  • 均匀采样信号的鲁棒Savistky-Golay滤波(MATLAB)
  • c++ 可以再头文件种直接给成员变量赋值吗
  • 47.HOOK引擎优化支持CALL与JMP位置做HOOK
  • liunx上修改Firefox版本号
  • bug——多重定义
  • 将堆内存的最小值(Xms)与最大值(Xmx)设置为相同的配置,可以防止JVM在运行过程中根据需要动态调整堆内存大小
  • 安装 tesseract
  • 为适配kubelet:v0.4 安装指定版本的docker
  • vivado CLOCK_REGION、CLOCK_ROOT
  • alphazero学习
  • 剖析DeFi交易产品之UniswapV3:交易路由合约
  • Agent下载安装步骤
  • 2024年AI技术深入研究
  • Apache Seata分布式事务启用Nacos做配置中心
  • Emacs之解决:java-mode占用C-c C-c问题(一百四十六)
  • go语言day10 接口interface 类型断言 type关键字
  • Java实现登录验证 -- JWT令牌实现
  • liunx文件系统,日志分析
  • Apipost接口测试工具的原理及应用详解(二)
  • 「AIGC」大数据开发语言Scala入门
  • 2.1 tmux和vim
  • 运行vue : 无法加载文件 C:\Program Files\nodejs\node_global\vue.ps1,因为在此系统上禁止运行脚本。
  • Lambda架构
  • 数据库作业day3
  • 计算机网络——数据链路层(以太网扩展、虚拟局域网、高速以太网)
  • Nuxt 项目集成第三方UI组件库(九)