当前位置: 首页 > news >正文

数据预处理:标准化和归一化

标准化和归一化简介

    • 1、数据预处理概述
    • 2、数据标准化
    • 3、数据归一化
    • 4、标准化和归一化怎么选



1、数据预处理概述


在选择了合适模型的前提下,机器学习可谓是“训练台上3分钟,数据数量和质量台下10年功”。数据的收集与准备是机器学习中的重要一步,是构建一个好的预测模型大厦的基石。数据的数量与质量直接决定了预测模型的好坏

所以,在数据的收集与准备这一步中,必须做好数据预处理。Scikit-Learn提供了标准化和归一化等API方便我们进行数据预处理。标准化和归一化是常用的数据缩放方式

数据预处理的一般顺序(不一定全需要做)为:处理离群值、处理缺失值、标准化或归一化、纠偏、连续特征离散化、类别特征编码、特征增强和对不平衡数据集的处理(仅针对分类问题)

那么,为什么要进行标准化和归一化呢?

例如,我们的某个样本与其它样本数值相差较大,那么,该样本特征的方差就会比其他样本特征大几个数量级,那么,它就会在学习算法中占据主导位置,导致学习器并不能像我们说期望的那样,从其他特征中学习。也就是说,该样本会主导其它样本,最终导致预测结果的偏差

当某个或某些特征的单位或大小与其它样本相差较大,或者某特征的方差比其他的特征要大出几个数量级,那么,该特征就容易影响(支配)目标结果,使得一些算法无法学习到其他的特征,即无量纲化

因此,我们需要做的是对样本数据进行数据标准化或归一化,将所有的数据映射到同一尺度

2、数据标准化


2.1、什么是数据标准化

定义:数据标准化通过减去均值然后除以方差(或标准差),转化为均值为0,标准差为1的标准正态分布,转化公式为:
X ′ = X − μ σ X^{'}=\frac{X-\mu}{\sigma} X=σXμ

其中, μ \mu μ为均值, σ \sigma σ为标准差。标准化操作是将数据按其属性(按列)减去平均值,然后再除以标准差

当数据X按均值 μ \mu μ中心化后,再按标准差 σ \sigma

http://www.lryc.cn/news/271539.html

相关文章:

  • Node.js+Express 路由配置,实现接口分类管理
  • HTML-基础知识-基本结构,注释,文档说明,字符编码(一)
  • 《系统架构设计师教程(第2版)》第3章-信息系统基础知识-05-专家系统(ES)
  • OSCHINA Gitee 联合呈现,《2023 中国开源开发者报告》正式发布,总结分非常帮,可以免费看的报告!
  • 代码随想Day55 | 392.判断子序列、115.不同的子序列
  • 电缆厂 3D 可视化管控系统 | 图扑数字孪生
  • C语言之scanf浅析
  • Java商城 免 费 搭 建:鸿鹄云商实现多种商业模式,VR全景到SAAS,应有尽有
  • Cypress安装与使用教程(3)—— 软测大玩家
  • Dryad数据库学习
  • TypeScript 的基础语法
  • FA模板制作
  • 国科大2023.12.28图像处理0854最后一节划重点
  • 51单片机中TCON, IE, PCON等寄存器的剖析
  • 2023.12.28 Python高级-正则表达式
  • 编程笔记 html5cssjs 014 网页布局框架
  • 抖店和商品橱窗有什么区别?新手应该选哪个?
  • 在Adobe Acrobat上如何做PDF文档签名
  • Leetcode 988. Smallest String Starting From Leaf (二叉树遍历好题)
  • redis 三主六从高可用docker(不固定ip)
  • 12.26
  • 2022年全国职业院校技能大赛高职组云计算正式赛卷第三场-公有云
  • Python | 机器学习之数据清洗
  • 力扣:509. 斐波那契数(动态规划,附带递归版本) 详细讲解动态规划的思路
  • Python3,压箱底的代码片段,提升工作效率稳稳的。
  • Flowable-升级为7.0.0.M2-第三节
  • JavaWeb——前端之AjaxVue
  • 在 Android 手机上从SD 卡恢复数据的 6 个有效应用程序
  • uni-app/vue封装etc车牌照输入,获取键盘按键键值
  • iostat获取IO延迟单位从ms调整us的方案