当前位置：首页 > news >正文

三、归一化与标准化

news 2025/7/13 19:55:39

归一化与标准化

前言
一、最小最大值归一化
- 1.1 原理（公式）
- 1.2 API 介绍
- - 1.2.1 参数介绍
  - 1.2.2 属性介绍
  - 1.2.3 注意事项
  - 1.2.4 代码演示
- 1.3 举例说明
二、标准化
- 2.1 原理（公式）
- 2.2 API 介绍
- - 2.2.1 参数介绍
  - 2.2.2 属性介绍
  - 2.2.3 注意事项
  - 2.2.4 代码演示
- 2.3 举例说明
三、案例代码：利用KNN算法进行鸢尾花分类
总结

前言

特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些模型（算法）无法学习到其它的特征。
所以我们需要对特征进行预处理，让不同特征在同一尺度下进行比较，从而避免因特征值大小差异而导致的模型训练偏倚。

一、最小最大值归一化

1.1 原理（公式）

这种方法将特征值缩放到指定的区间内，默认是0到1之间。计算公式如下：
$x_{norm} = \frac{x-min(x)}{max(x)-min(x)}$
如果需要缩放至其他区间[a, b]，则可以使用：
$x_{norm} = a + (\frac{x-min(x)}{max(x)-min(x)}) \cdot (b-a)$

1.2 API 介绍

sklearn.preprocessing.MinMaxScaler ( )

1.2.1 参数介绍

feature_range：tuple (min, max), default=(0, 1)
- 描述：这个参数用于设定缩放的范围。默认情况下，数据会被缩放到 [0, 1] 范围内。但用户可以根据需要设定其他范围，例如 [-1, 1]。
- 作用：通过调整缩放范围，可以对数据的分布进行更精细的控制，以适应不同的机器学习算法和数据特点。
copy：boolean, optional, default=True
- 描述：这个参数用于指定是否将转换后的数据覆盖原数据。如果设置为 True，则不会修改原始数据，而是返回一个新的缩放后的数据数组。如果设置为 False，则会在原地修改原始数据。
- 作用：通过控制是否覆盖原数据，可以保护原始数据的完整性，避免在数据处理过程中发生数据丢失或修改。
clip：boolean, optional, default=False
- 描述：clip 参数是一个布尔值，用于控制是否对变换后的数据进行裁剪。
- 作用：当 clip=True 时，变换后的数据将被裁剪到指定的范围内，确保数据的一致性和有效性；当 clip=False 时，变换后的数据可能超出指定的范围，这需要根据具体情况来决定是否启用裁剪功能。

1.2.2 属性介绍

在 MinMaxScaler 类中，还有一些重要的属性，用于存储缩放过程中的相关信息：

min_：ndarray of shape (n_features,)
- 描述：存储每个特征调整后的最小值。
scale_：ndarray of shape (n_features,)
- 描述：存储每个特征数据缩放的比例。这个比例是通过计算特征的最大值和最小值之差，然后除以指定的缩放范围（feature_range）来得到的。
data_min_ 和 data_max_：ndarray of shape (n_features,)
- 描述：分别存储每个特征在训练数据中的最小值和最大值。这些值是在调用 fit 或 fit_transform 方法时计算得到的。

1.2.3 注意事项

归一化受到最大值与最小值的影响，这种方法容易受到异常数据的影响, 鲁棒性较差，适合传统精确小数据场景

1.2.4 代码演示

代码如下（示例）：

# 导包
from sklearn.preprocessing import MinMaxScaler  # 归一化的类# 1. 准备特征数据.  每个子列表 = 1个样本(Sample)
data = [[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]]# 2. 创建归一化对象.
transfer = MinMaxScaler()# 3. 具体的 归一化动作.
# fit_transform(): 训练 + 转换 => 适用于 训练集.
# transform(): 直接转换 => 适用于 测试集.
new_data = transfer.fit_transform(data)# 4. 打印 归一化后的结果
print(f'归一化后, 数据集为: {new_data}') #  [[1.         0.         0.         0.        ]#	[0.         1.         1.         0.83333333]#	[0.5        0.5        0.6        1.        ]]

1.3 举例说明

1.有以下一个数据集，包含两个特征：年龄（Age）和收入（Income）。我们希望这两个特征进行归一化处理。

Age	Income
20	30000
22	32000
35	55000
45	75000
50	85000

2.我们将年龄和收入都归一化到0到1的范围内。
- 2.1 年龄归一化：
  $Age_{norm} = \frac{Age-min(Age)}{max(Age)-min(Age)}$
  - $Age_{norm} = \frac{20-20}{50-20} = 0$
  - $Age_{norm} = \frac{22-20}{50-20} = 0.0667$
  - $Age_{norm} = \frac{35-20}{50-20} = 0.5$
  - $Age_{norm} = \frac{45-20}{50-20} = 0.8333$
  - $Age_{norm} = \frac{50-20}{50-20} = 1$
- 2.2 收入归一化：
  $Income_{norm} = \frac{Income-min(Income)}{max(Income)-min(Income)}$
  - $Income_{norm} = \frac{30000-30000}{85000-30000} = 0$
  - $Income_{norm} = \frac{32000-30000}{85000-30000} = 0.0364$
  - $Income_{norm} = \frac{55000-30000}{85000-30000} = 0.4545$
  - $Income_{norm} = \frac{75000-30000}{85000-30000} = 0.8182$
  - $Income_{norm} = \frac{85000-30000}{85000-30000} = 1$
3 原数据集就会变成下面这样

Age	Income
0	0
0.0667	0.0364
0.5	0.4545
0.8333	0.8182
1	1

二、标准化

2.1 原理（公式）

标准化是将特征值转换为具有零均值和单位方差的形式。计算公式如下：
$x_{std} = \frac{x-μ}{σ}$
其中， $μ$ 是特征的平均值， $σ$ 是特征的标准差。

2.2 API 介绍

sklearn.preprocessing.StandardScaler( )

2.2.1 参数介绍

copy：类型：布尔值（Boolean）；默认值：True
- 说明：如果设置为 True，则会在操作后创建数据的副本，不会修改原始数据。如果设置为 False，则不会创建副本，操作后会直接替换原始数据。
with_mean：类型：布尔值（Boolean）；默认值：True
- 说明：如果设置为 True，则在转换数据时会减去均值（即进行中心化）。如果设置为 False，则不会在转换时减去均值，但 fit 操作仍然会计算均值，并可以通过 mean_ 属性查看。
with_std：类型：布尔值（Boolean）；默认值：True
- 说明：如果设置为 True，则在转换数据时会除以标准差（即进行缩放）。如果设置为 False，则不会在转换时除以标准差，但 fit 操作仍然会计算标准差，并可以通过 scale_ 属性查看。

2.2.2 属性介绍

scale_：
- 存放每个特征的标准差，是一个列表，长度为特征数。
mean_：
- 存放每个特征的均值，是一个列表，长度为特征数。
var_：
- 存放每个特征的方差，是一个列表，长度为特征数。
feature_names_in_：
- 存放特征的名字，只有导入的数据中有特征名字时才会被定义。
n_samples_seen_：
- 导入样本数据的个数。

2.2.3 注意事项

对于标准化来说，如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大。

2.2.4 代码演示

代码如下（示例）：

from sklearn.preprocessing import StandardScaler# 1. 准备特征数据.  每个子列表 = 1个样本(Sample)
data = [[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]]# 2. 创建 标准化 对象.
transfer = StandardScaler()# 3. 具体的 标准化 动作.
# fit_transform(): 训练 + 转换 => 适用于 训练集.
# transform(): 直接转换 => 适用于 测试集.
new_data = transfer.fit_transform(data)# 4. 打印 标准化 后的结果
print(f'标准化后, 数据集为: {new_data}')# 5. 打印每个特征列的 平均值 和 方差 和 标准差
print(f'均值: {transfer.mean_}')
print(f'方差: {transfer.var_}')
print(f'标准差: {transfer.scale_}')
print(f'样本数: {transfer.n_samples_seen_}')

2.3 举例说明

1.有以下一个数据集，包含两个特征：年龄（Age）和收入（Income）。我们希望这两个特征进行归一化处理。

Age	Income
20	30000
22	32000
35	55000
45	75000
50	85000

2.我们将年龄和收入标准化到具有零均值和单位方差的形式。
- 2.1 年龄标准化：
  $x_{std} = \frac{x-μ}{σ}$
  $μ_{Age} = \frac{20+22+35+45+50}{5} = 34.4$
  $σ_{Age} = \sqrt{\frac{(20-34.4)^2+(22-34.4)^2+(35-34.4)^2+(45-34.4)^2+(50-34.4)^2}{5}} = \sqrt{142.8856} ≈ 11.9536$
  - $Age_{std} = \frac{20-34.4}{11.9536} ≈ -1.2047$
  - $Age_{std} = \frac{22-34.4}{11.9536} ≈ -1.037$
  - $Age_{std} = \frac{35-34.4}{11.9536} ≈ 0.0502$
  - $Age_{std} = \frac{45-34.4}{11.9536} ≈ 0.8868$
  - $Age_{std} = \frac{50-34.4}{11.9536} ≈ 1.3050$
- 2.2 收入标准化：
  $μ_{Income} = \frac{30000+32000+55000+75000+85000}{5} = 55,400$
  $σ_{Income} = \sqrt{\frac{(30000-55400)^2+(32000-55400)^2+(55000-55400)^2+(75000-55400)^2+(85000-55400)^2}{5}} = \sqrt{486176800} ≈ 22049$
  - $Income_{norm} = \frac{30000-55400}{22049} = -1.1520$
  - $Income_{norm} = \frac{32000-55400}{22049} = -1.0613$
  - $Income_{norm} = \frac{55000-55400}{22049} = -0.0181$
  - $Income_{norm} = \frac{75000-55400}{22049} = 0.8889$
  - $Income_{norm} = \frac{85000-55400}{22049} = 1.3425$
3 原数据集就会变成下面这样

Age	Income
-1.2047	-1.1520
-1.037	-1.0613
0.0502	-0.0181
0.8868	0.8889
1.3050	1.3425

三、案例代码：利用KNN算法进行鸢尾花分类

代码如下（示例）：

# 0.导入工具包
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score# 1.加载数据集
iris_data = load_iris()
# print(iris_data)
# print(iris_data.target)# 2.数据展示
iris_df = pd.DataFrame(iris_data['data'], columns=iris_data.feature_names)
iris_df['label'] = iris_data.target
# print(iris_data.feature_names)
# sns.lmplot(x='sepal length (cm)',y='sepal width (cm)',data = iris_df,hue='label')
# plt.show()# 3.特征工程(预处理-标准化)
# 3.1 数据集划分
x_train, x_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=22)
print(len(iris_data.data))
print(len(x_train))
# 3.2 标准化
process = StandardScaler()
x_train = process.fit_transform(x_train)
x_test = process.transform(x_test)
# 4.模型训练
# 4.1 实例化
model = KNeighborsClassifier(n_neighbors=3)
# 4.2 调用fit法
model.fit(x_train,y_train)
# 5.模型预测
x = [[5.1, 3.5, 1.4, 0.2]]
x=process.transform(x)
y_predict =model.predict(x_test)
print(model.predict_proba(x))# 6.模型评估(准确率)
# 6.1 使用预测结果
acc =accuracy_score(y_test,y_predict)
print(acc)# 6.2 直接计算
acc = model.score(x_test,y_test)
print(acc)