当前位置: 首页 > news >正文

为什么需要对数值类型的特征做归一化?

对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。最常用的方法有以下两种:

(1)线性函数归一化(Min-Max Scaling)

它对原始数据进行线性变换,使结果映射到【0,1】的范围,实现对数据的等比放缩。归一化公式如下

X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}

其中X为原始数据,X_{max}X_{min}分别为数据最大值和最小值。

(2)零均值归一化(Z-Score Normalization)

 它会将原始数据映射到均值为0,标准差为1的分布上。具体来说,假设原始特征的均值为\mu、标准差为\sigma,那么归一化公式定义为

z=\frac{x-\mu}{\sigma}

为什么需要对数值型特征做归一化呢?我们不妨借助随机梯度下降的实例来说明归一化的重要性。假设有两种数值型特征,x_1的取值范围为【0,10】,x_2的取值范围为【0,3】,于是可以构造一个目标函数符合图1.1(a)中的等值图。

在学习速率相同的情况下,x_1的更新速度会大于x_2,需要较多的迭代才能找到最优解。如果将x_1x_2归一化到相同的数值区间后,优化目标的等值图会变成图1.1(b)中的圆形。 x_1x_2的更新速度变得更为一致,容易更快地通过梯度下降找到最优解

当然,数据归一化并不是万能的。在实际应用中,通过梯度下降法求解的模型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适用,以C4.5为例,决策树在进行节点分裂时主要依据数据集D关于特征x的信息增益比,而信息增益比跟特征是否归一化是无关的,因为归一化并不会改变样本在特征x上的信息增益。

http://www.lryc.cn/news/268679.html

相关文章:

  • ARM 点灯
  • CamSim相机模拟器:极大加速图像处理开发与验证过程
  • Google Ad帐号被封?代理IP和电子邮件可能是原因
  • EfficientNet
  • 百度每天20%新增代码由AI生成,Comate SaaS服务8000家客户 采纳率超40%
  • 产品管理-学习笔记-版本的划分
  • 编程笔记 html5cssjs 004 我的第一个页面
  • 为实体服务器配置Ubuntu
  • 单例模式的双重检查锁定是什么?
  • hyper-v ubuntu 3节点 k8s集群搭建
  • postman进阶使用
  • errors包返回堆栈信息的性能测试
  • 力扣热题100道-哈希篇
  • YOLOv7+Pose姿态估计+tensort部署加速
  • gitee+picgo+typora图床搭建
  • Flink项目实战篇 基于Flink的城市交通监控平台(上)
  • thinkcmf 文件包含 x1.6.0-x2.2.3 已亲自复现
  • 本地部署 text-generation-webui
  • C语言实验1:C程序的运行环境和运行C程序的方法
  • 「微服务」微服务架构中的数据一致性
  • ARCGIS PRO SDK 要素空间关系
  • Python面向对象高级与Python的异常、模块以及包管理
  • Python 爬取 哔站视频弹幕 并实现词云图可视化
  • BP神经网络详细原理,BP神经网络训练界面详解,基于BP神经网络的公司财务风险分类
  • C++ DAY1 作业
  • 「微服务模式」七种微服务反模式
  • 运动耳机哪款性价比最高、性价比最高的运动耳机推荐
  • FreeRTOS软件定时器
  • 【Java集合类不安全示例】
  • cpp_07_类型转换构造_析构函数_深拷贝_静态成员