当前位置: 首页 > news >正文

【笔记】数据异常检测与修复总结

文章目录

    • 一、异常种类
      • 1. 对于移动对象的数据异常
      • 2. 对于时序数据的异常检测
    • 二、异常数据清洗流程
    • 三、数据预处理
    • 四、异常检测算法
    • 五、异常修复算法
    • 六、漂移数据清洗

一、异常种类

不同的研究对象,有着不同的异常分类方式

1. 对于移动对象的数据异常

异常数据信息,包括重复数据、无序数据、缺失数据、 无效数据、漂移数据、模糊数据。

类型描述
重复数据由于设备或其他因素问题 导致的数据重复存储造成的
无序数据是网络传输延迟造成的不正确的数据存储顺序
缺失数据通过比较两个数据之间的时间差和数据收集的频率来确定的
无效数据由数据的纬度或经度是否超出范围来确定
漂移数据是指不符合行驶规则,明显偏离行驶轨迹的数据记录
模糊数据\

2. 对于时序数据的异常检测

除了重复数据、无序数据、缺失数据、 无效数据。
又可以将数据的异常精确地分为:

  • 点异常值:相对于全局其他数据的异常实例。
  • 上下文异常值:上下文异常值通常在它们自己的上下文中具有相对较大/较小的值,但不是全局的。
  • 集体异常值:被定义为相对于整个数据集异常的相关异常数据实例的集合。

以上这些异常的检测难度也较大。

再细分的话,集体异常值又可以分类为:

  • shapelet outliers (异常的局部子序列): 。
  • seasonal outliers (异常周期性的局部子序列): 。
  • trend outliers (异常趋势的局部子序列):
    在这里插入图片描述

二、异常数据清洗流程

在这里插入图片描述

三、数据预处理

  1. 是否要排序
  2. 是否要规定索引
  3. 是否要填充缺失值、删除重复值
  4. 是否要调整数据格式(列位置调换、提取所需数据)

四、异常检测算法

在这里插入图片描述

五、异常修复算法

  1. 均值填充
  2. 最大似然估计
  3. NNF

近邻数据填充 NNF(Nearest Neighbor Fill)算法
在这里插入图片描述
NNF 算法不仅具有 MA 算法均等填充数据的优势,而且对于逐渐演化的数据也有很好的填充优 势,在变化的数据中,NNF 比 MA 有更好的填充效果

  1. 。。。

六、漂移数据清洗

一种结合范围约束最大似然估计的算法

  1. 修复漂移较大的数据异常:范围约束
  2. 修复漂移较小的数据异常:滑动窗口统计
http://www.lryc.cn/news/10051.html

相关文章:

  • 算法笔记(七)—— 图的相关知识及算法
  • ssh配置互信时错误解决方法
  • SQL69 返回产品并且按照价格排序
  • vue+elementUI 实现设置还款日字母弹窗组件
  • 【JavaGuide面试总结】Redis篇·中
  • Python:每日一题之全球变暖(BFS连通性判断)
  • VUE -- defineExpose
  • 实用调试技巧【下篇】
  • 【数据结构期末例题】
  • 管理物理和快照备数据库(Physical and Snapshot Standby Databases)
  • 双目立体视觉:SAD算法
  • 海外问卷调查答题技巧,纯干货分享,新手小白看过来
  • 【NGINX入门指北】Nginx Web 架构实验
  • rtt-nano移植
  • cnn+transformer
  • Python fileinput模块:逐行读取多个文件
  • Vue3路由传参
  • 用户管理——认证功能JWT和Session
  • hashlib — 加密哈希算法
  • 四喜临门选股预警源码指标
  • Kotlin新手教程五(扩展)
  • QT入门Containers之Widget、Frame
  • 数据结构与算法基础-学习-12-线性表之顺序队
  • Python 字典(Dictionary)小窍门
  • 知识图谱构建技术综述
  • 环境变量和进程地址空间
  • 【数据结构】栈和队列
  • sql复习(视图、Top-N分析、其他数据库对象)
  • 2023年私募股权基金研究报告
  • Redis单点故障+红锁原理