当前位置: 首页 > news >正文

数学建模_数据预处理流程(全)

数据预处理整体流程图

一般数据预处理流程

  1. 处理缺失值:填补或删除缺失值。
  2. 处理异常值:检测并处理异常值。
  3. 数据编码:将分类变量进行标签编码或独热编码。
  4. 数据标准化/归一化:对数据进行标准化或归一化处理。
  5. 连续变量离散化:根据需要将连续变量进行离散化处理。
  6. 特征选择和降维:使用PCA、T-SNE、UMAP等方法进行降维。
1. 处理缺失值

目标:确保数据的完整性,避免模型因缺失值而产生偏差。

  • 方法:

    • 删除缺失值:直接删除含有缺失值的数据行或列。

    • 填补缺失值 :

      • 均值/中位数/众数填补:适用于数值型数据。
      • 插值方法:如拉格朗日插值法、牛顿插值法,适用于时间序列等有序数据的插值。
    • 插补预测:使用机器学习模型预测缺失值。


2. 处理异常值

目标:减少异常值对数据分析和模型训练的影响。

  • 检测方法:
    • 3σ原则:利用数据的均值和标准差检测异常值。
    • 箱型图:使用四分位数和内限/外限检测异常值。
  • 处理方法:
    • 删除异常值:直接移除异常点。
    • 替换异常值:用合适的值替换异常点,如用中位数或均值替换。

3. 数据编码

目标:将分类变量转换为模型可以理解的数值形式。

  • 方法:
    • 标签编码:将分类标签转换为整数值,适用于有序类别数据。
    • 独热编码:将每个类别转换为一个二进制向量,适用于无序类别数据。

4. 数据标准化/归一化

目标:将数据缩放到统一尺度,以减少不同特征尺度对模型的影响。

  • 标准化:将数据转换为均值为0、标准差为1的标准正态分布。
    • 方法:标准差法。
  • 归一化:将数据缩放到指定范围(如[0,1])。
    • 方法:极值差法、功效系数法等。

5. 连续变量离散化

目标:将连续型变量转换为离散的类别,以适应某些特定的模型或分析需求。

  • 方法:
    • 等宽法:将数值范围等分为若干个区间。
    • 等频法:根据数据的频率分布进行分组。
    • 基于聚类的离散化:利用聚类算法将数据划分为若干类。

6. 特征选择和降维

目标:减少数据维度,降低模型复杂度,提高模型训练效率。

  • 方法:
    • PCA(主成分分析):一种线性降维方法,通过计算特征的主成分减少数据维度。
    • T-SNE:一种非线性降维方法,常用于数据可视化。
    • UMAP:另一种非线性降维方法,比T-SNE更快,适用于大规模数据的可视化。
http://www.lryc.cn/news/433978.html

相关文章:

  • 深入解析Flink SQL:基本概念与高级应用
  • 计算机的发展史和基本结构
  • VSTO常见的异常
  • 【H2O2|全栈】关于HTML(3)HTML基础(二)
  • 前端AST
  • 基于EPS32C3电脑远程开机模块设计
  • 深度解析 Netty 性能卓越的背后原因
  • 虚幻引擎(Unreal Engine)技术使得《黑神话悟空传》大火,现在重视C++的开始吃香了,JAVA,Go,Unity都不能和C++相媲美!
  • 华为-2022-测试面试题
  • Linux-(系统启动、用户管理)
  • 机器学习:opencv--图像形态学
  • 网络基础入门指南(一)
  • 【项目】云备份
  • WebGL系列教程二(环境搭建及初始化Shader)
  • keepalive和nginx高可用集群
  • 二分查找题总结
  • 仕考网:公务员面试流程介绍
  • (十五)SpringCloudAlibaba-Sentinel持久化到Nacos
  • GitHub图床
  • 记一次高版本view-design的组件迁移到自身项目的低版本
  • QT运行ROS工程
  • 电脑技巧:如何在Win11电脑上调整设置,让屏幕更加护眼?
  • 【数据结构】排序算法篇二
  • python进阶篇-day09-数据结构与算法(非线性结构与排序算法)
  • 线性代数基础
  • LCR 021
  • 【阿雄不会写代码】全国职业院校技能大赛GZ036第四套
  • Vue组件:使用$emit()方法监听子组件事件
  • 数据分析-埋点
  • 【文心智能体】通过工作流使用知识库来实现信息查询输出,一键查看旅游相关信息,让出行多一份信心