当前位置: 首页 > news >正文

【人工智能概论】 用Python实现数据的归一化

【人工智能概论】 用Python实现数据的归一化

文章目录

  • 【人工智能概论】 用Python实现数据的归一化
  • 一. 数据归一化处理的意义
  • 二. 常见的归一化方法
    • 2.1 最大最小标准化(Min-Max Normalization)
    • 2.2 z-score 标准化
  • 三. 用sklearn实现归一化


一. 数据归一化处理的意义

  • 多特征数据集常会遇到这样的问题,不同特征间的取值范围往往有很大的差别,甚至是存在数量级方面的差异,这很有可能会导致深度学习算法精确度的降低,因此对数据进行归一化处理是很有意义的。

二. 常见的归一化方法

2.1 最大最小标准化(Min-Max Normalization)

  • 公式: x ′ = x − m i n ( x ) m a x ( x ) − m i x ( x ) x^{'} = \frac{x - min(x)}{max(x)-mix(x)} x=max(x)mix(x)xmin(x)
  • 这是一种线性映射的方法,将原始数据线性映射到[0 1]的范围内, X为原始数据;
  • 比较适用于数值比较集中的情况;
  • 缺陷:如果max和min不稳定,很容易使得归一化结果不稳定;

2.2 z-score 标准化

  • 公式: x ∗ = x − μ σ x^{*} = \frac{x - \mu}{\sigma } x=σxμ其中,μ、σ分别为原始数据的均值和方差。
  • 将原始数据归一化为均值为0、方差1的数据;
  • 该方法要求原始数据的分布近似为高斯分布,否则归一化的效果会变得很糟糕。

三. 用sklearn实现归一化

  • 创建测试数据
# 创建数据
import pandas as pdimport numpy as npx=np.random.randint(1,1000,(10000,5))x=pd.DataFrame(x)print(x)

在这里插入图片描述

  • 查看原始数据的均值与方差
# 查看原始数据的均值、方差print("原始数据均值")
display(x.mean())
print("原始数据方差")
display(x.var())

在这里插入图片描述

  • 最大最小标准化(Min-Max Normalization)
# 最大最小标准化(Min-Max Normalization)from sklearn.preprocessing import MinMaxScalerx_min=MinMaxScaler().fit_transform(x)x_min=pd.DataFrame(x_min)display(x_min.mean())display(x_min.var())

在这里插入图片描述

  • z-score 标准化
# z-score 标准化from sklearn.preprocessing import StandardScalerx_std=StandardScaler().fit_transform(x)x_std=pd.DataFrame(x_std)display(x_std.mean())display(x_std.var())

在这里插入图片描述

http://www.lryc.cn/news/61720.html

相关文章:

  • 【Python】matplotlib设置图片边缘距离和plt.lengend图例放在图像的外侧
  • oracle 11g等保加固
  • 【设计模式】设计模式之解释器模式
  • leetcode551. 学生出勤记录 I
  • flume拦截器介绍
  • 5.4、服务器编程基本框架和两种高效的事件处理模式
  • Flink主要有两种基础类型的状态:operator state。
  • 【vue2】使用vue-admin-template动态添加路由的思路/addRoutes的使用
  • Python语言中的注释方法应用
  • Google浏览器翻译无法正常使用解决
  • ETCD(三)操作指令
  • 小白学Pytorch系列--Torch.optim API Base class(1)
  • flac格式如何转mp3,3招帮你搞定
  • Redis入门到入土(day01)
  • JVM垃圾回收GC 详解(java1.8)
  • Mybatis-Plus -03 Mybatis-Plus实现CRUD
  • 综合能源系统中基于电转气和碳捕集系统的热电联产建模与优化研究(Matlab代码实现)
  • “智慧赋能 强链塑链”|工程物资供应链管理中的数字化应用
  • 通过docker发布项目
  • 为什么Spring和IDEA不推荐使用@Autowired注解?
  • windows下运行dpdk下的helloworld
  • 【AI理论学习】深入理解Prompt Learning和Prompt Tuning
  • 从Authy中导出账户和secret
  • 图像锐度评分算法,方差,点锐度法,差分法,梯度法
  • 查询练习:连接查询
  • 【mmdeploy】【TODO】使用mmdeploy将mmdetection模型转tensorrt
  • 德赛西威上海车展重磅发布Smart Solution 2.0,有哪些革新点?
  • 戴尔服务器是否需要开启cpupower.service
  • day02_第一个Java程序
  • 【华为OD机试真题 】1011 - 第K个排列 (JAVA C++ Python JS) | 机试题+算法思路+考点+代码解析