当前位置: 首页 > news >正文

数据预处理——调整方差、标准化、归一化(Matlab、python)

对数据的预处理:

(a)、调整数据的方差

(b)、标准化:将数据标准化为具有零均值和单位方差;(均值方差归一化(Standardization)

(c)、最值归一化也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 , 1]之间

(a)、调整数据的方差

 均方差=标准差

方差的定义是:离平均值的平方距离的平均。

(b)、标准化

也称为均值归一化(mean normaliztion), 给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。转化函数为:

虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后不仅使得转换后的各变量均值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异,从而转换后的各变量在聚类分析中的重要性程度是同等看待的。


(c)、最值归一化

也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 , 1]之间。

将一列数据变化到某个固定区间(范围)中,通常,这个区间是[0, 1] 或者(-1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。 

注意:由于极值化方法在对变量无量纲化过程中仅仅与该变量的最大值和最小值这两个极端值有关,而与其他取值无关,这使得该方法在改变各变量权重时过分依赖两个极端取值。

所用语言---matlab,python

matlab

%% 调整数据范围   预处理    调整方差到0.02
K=sqrt(0.02/var(inputData));
inputData = inputData*K;
K=sqrt(0.02/var(targetData));
targetData = targetData*K;
%% 标准化
mu = mean(inputData);
sig = std(inputData); %标准差std函数
inputData = (inputData - mu) / sig;
mu = mean(targetData);
sig = std(targetData);
targetData = (targetData - mu) / sig;
% 预处理  归一化
inputData= mapminmax(inputData, 0, 1);
targetData= mapminmax(targetData, 0, 1);

python

import numpy as npinputData=x
targetData=y
K=np.sqrt(0.02/np.var(inputData))
inputData=np.dot(inputData, K)
K=np.sqrt(0.02/np.var(targetData))
targetData=np.dot(targetData, K)

 将数据标准化

import numpy as npinputData=x
targetData=y
input_mean=np.mean(inputData)
input_std=np.std(inputData)
inputData=(inputData-input_mean)/input_std

 最值归一化适用于数据有明显边界的情况,例如考试成绩。该方法是将所有数据映射到[0,1]之间

(x-np.min(x))/(np.max(x)-np.min(x))  # 最值归一化

http://www.lryc.cn/news/371704.html

相关文章:

  • opencv_特征检测和描述
  • CID引流电商下的3C产品选品策略深度解析
  • DeepSORT(目标跟踪算法)中的状态向量与状态转移矩阵
  • 李宏毅深度学习01——基本概念简介
  • TcpClient 服务器、客户端连接
  • 13大最佳工程项目管理系统软件盘点
  • SpringMVC:拦截器(Interceptor)
  • 【Python】selenium使用find_element时解决【NoSuchWindowException】问题的方法
  • PTA:7-188 水仙花数
  • HTML静态网页成品作业(HTML+CSS+JS)—— 美食企业曹氏鸭脖介绍网页(4个页面)
  • SCI二区|鲸鱼优化算法(WOA)原理及实现【附完整Matlab代码】
  • 人脸匹配——OpenCV
  • 韩顺平0基础学java——第22天
  • 神经网络介绍及教程案例
  • 16个不为人知的资源网站,强烈建议收藏!
  • pandas获取某列最大值的所有数据
  • App UI 风格展现非凡创意
  • rocketmq-5.1.2的dleger高可用集群部署
  • 无线网络与物联网技术[1]之近距离无线通信技术
  • Codeforces Round 952 (Div. 4)
  • spark MLlib (DataFrame-based) 中的聚类算法Bisecting K-Means、K-Means、Gaussian Mixture
  • 天降流量于雀巢?元老品牌如何创新营销策略焕新生
  • 新疆在线测宽仪配套软件实现的9大功能!
  • 考研计组chap3存储系统
  • 杨氏矩阵和杨辉三角的空间复杂度较小的解题思路
  • 【第六篇】SpringSecurity的权限管理
  • 未来工作场所:数字化转型的无限可能
  • Landsat8的质量评估波段的一个应用
  • OpenZeppelin Ownable合约 怎么使用
  • vue3框架基本使用(基础指令)