当前位置: 首页 > news >正文

sklearn实现数据标准化(Standardization)和归一化(Normalization)

标准化(Standardization)

sklearn的标准化过程,即包括Z-Score标准化,也包括0-1标准化,并且即可以通过实用函数来进行标准化处理,同时也可以利用评估器来执行标准化过程。接下来我们分不同功能以的不同实现形式来进行讨论:

Z-Score标准化的评估器实现方法

#首先是评估器导入
from sklearn.preprocessing import StandardScaler#评估器的实例化
scaler = StandardScaler()#然后导入数据,进行训练,此处也是使用fit函数进行训练:
X = np.arange(15).reshape(5, 3)
scaler.fit(X)# 查看训练数据各列的标准差
scaler.scale_
# 查看训练数据各列的均值
scaler.mean_
# 查看训练数据各列的方差
scaler.var_
# 总共有效的训练数据条数
scaler.n_samples_seen_# 利用均值和方差对训练集进行标准化处理
scaler.transform(X)

0-1标准化的评估器实现方法

from sklearn.preprocessing import MinMaxScaler#然后导入数据,进行训练
X = np.arange(15).reshape(5, 3)
scaler = MinMaxScaler()
scaler.fit_transform(X)

归一化Normalization

和标准化不同,sklearn中的归一化特指将单个样本(一行数据)放缩为单位范数(1范数或者2范数为单位范数)的过程,归一化也有函数实现和评估器实现两种方法。
  此前我们曾解释到关于范数的基本概念,假设向量 x = [ x 1 , x 2 , . . . , x n ] T x = [x_1, x_2, ..., x_n]^T x=[x1,x2,...,xn]T,则向量x的1-范数的基本计算公式为:
∣ ∣ x ∣ ∣ 1 = ∣ x 1 ∣ + ∣ x 2 ∣ + . . . + ∣ x n ∣ ||x||_1 = |x_1|+|x_2|+...+|x_n| ∣∣x1=x1+x2+...+xn
即各分量的绝对值之和。而向量x的2-范数计算公式为:
∣ ∣ x ∣ ∣ 2 = ( ∣ x 1 ∣ 2 + ∣ x 2 ∣ 2 + . . . + ∣ x n ∣ 2 ) ||x||_2=\sqrt{(|x_1|^2+|x_2|^2+...+|x_n|^2)} ∣∣x2=(x12+x22+...+xn2)
我们可以调用评估器来实现上述过程

from sklearn.preprocessing import Normalizer#导入数据,进行训练
X = np.arange(15).reshape(5, 3)# L2 (默认)
normlize = Normalizer()
normlize.fit_transform(X)# L1 
normlize = Normalizer(norm='l1')
normlize.fit_transform(X)
http://www.lryc.cn/news/294240.html

相关文章:

  • 做技术的应该是没有什么你不会
  • MySQL进阶45讲【10】MySQL为什么有时候会选错索引?
  • 网络安全-端口扫描和服务识别的几种方式
  • 【分布式】雪花算法学习笔记
  • 6.函数表达式 - JS
  • 【RK3288 Android10 C30 支持sim卡拔掉不弹窗,及热插拔】
  • python生成docx文件
  • 网络异常案例四_IP异常
  • Hack The Box-Challenges-Misc-M0rsarchive
  • 验证码倒计时:用户界面的小细节,大智慧
  • Web后端:CSRF攻击及应对方法
  • 【手写数据库toadb】toadb表对象访问操作,存储管理抽象层软件架构设计思想应用
  • SpringBoot使用Rabbit详解含完整代码
  • 深度学习本科课程 实验3 网络优化
  • Eclipse 安装使用ABAPGit
  • std::mutex std::recursive_mutex std::shared_mutex
  • vscode的vetur文档格式化失效
  • idea 快捷键ctrl+shift+f失效的解决方案
  • C++面试:数据库的连接池管理
  • React Hook之钩子调用规则(不在循环、条件判断或者嵌套函数中调用)
  • 深入理解TCP网络协议(3)
  • JavaScript实现归并排序及vscode输出乱码解决
  • Redis面试题40
  • 2024年危险化学品经营单位安全管理人员证考试题库及危险化学品经营单位安全管理人员试题解析
  • Kafka相关内容复习
  • JVM之Java内存区域
  • 几个MySQL系统调优工具
  • Linux内核与驱动面试经典“小”问题集锦(2)
  • windws安装mysql详细步骤
  • Linux的库文件