当前位置: 首页 > news >正文

数学建模——数据预处理

在数学建模时,经常遇到数据的预处理,那么会有一些什么情况呢,跟着北海老师总结了他的内容~希望对大家有所帮助!

缺失值

  • 比赛提供的数据,发现有些单元格是null或空的
  • 缺失太多:例如调查人口信息,发现“年龄”这一项缺失了40%,就直接把该项指标删除
  • 最简单处理:均值、众数插补
  • 定量数据,例如关于一群人的身高、年龄等数据,用整体的均值来补缺失
  • 定性数据,例如关于一群人的性别、文化程度: 某些事件调查的满意度,用出现次数最多的值补缺失。
  • 适用赛题:人口的数量年龄、经济产业情况等统计数据,对个体精度要求不大的数据
  • Newton插值法
  • 根据固定公式,构造近似函数,补上缺失值,普遍适用性强
  • 缺点:区间边缘处的不稳定震荡,即龙格现象。
  • 不适合对导数有要求的题目适用赛题:热力学温度、地形测量、定位等只追求函数值精准而不关心变化的数据
  •  样条插值法
  • 用分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率
  • 适用赛题:零件加工,水库水流量,图像“基线漂移”机器人轨迹等精度要求高、没有突变的数据

异常值

  • 样本中明显和其他数值差异很大的数据,例如一群人的身高数据中有个3米2的
  • 正态分布3o原则
  • 数值分布在 (u-3q,u+3a)中的概率为99.73%,其中川为平均值,为标准差求解步骤: 1.计算均值和标准差;2.判断每个数据值是否在(-3,u+3)内,不在则为异常值
  • 适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等
  • 不适用题目: 总体符合其他分布,例如公交站人数排队论符合泊松分布
  • 画箱型图:
  • 上四分位数Qx是排第75%的数值箱型图中,把数据从小到大排序。下四分位数Q1是排第25%的数值
  • 四分位距IQR = Q3- Q1,也就是排名第75%的减去第25%的数值
  • 与正态分布类似,设置个合理区间,在区间外的就是异常值
  • 一般设[Q1-1.5*IQR,Q3 +1.5*IQR]内为正常值
  • 适用题目:普通适用
  •  找到异常后,处理方法与处理缺失值相同

 

http://www.lryc.cn/news/62359.html

相关文章:

  • 第8章:树
  • Java基础学习(10)
  • Tomcat多实例部署实验
  • 无良公司把我从上家挖过来,白嫖了六个月,临近试用期结束才说不合适,催我赶紧找下家!...
  • 忙碌中也要记得休息,这两款好玩的游戏推荐给你
  • 四种方法可以实现判断字符串包含某个字符
  • ubuntu进程相关command
  • 7.参数校验
  • nginx简单介绍
  • 美创科技首届渠道高峰论坛| 两大分论坛亮点汇聚
  • QML中【预计符号】和【Unknown Component M300】的红色警告解决方法
  • 聊聊「低代码」的实践之路
  • (一)服务发现组件 Eureka
  • 学会笔记本电脑录屏快捷键,轻松实现录屏!
  • ( “树” 之 Trie) 208. 实现 Trie (前缀树) ——【Leetcode每日一题】
  • 算法训练Day40:343. 整数拆分 96.不同的二叉搜索树
  • 设计模式及代码
  • 9.java程序员必知必会类库之加密库
  • C技能树:for循环:九九乘法表
  • Win10老是蓝屏收集错误信息重启无效怎么办?
  • Redis入门学习笔记【五】Redis在分布式环境下常见的应用场景
  • Python ZIpFile 解惑:GBK 编码与乱码现象
  • 【LeetCode】213. 打家劫舍 II
  • 从初识RabbitMQ到安装了解
  • MySQL(六)-字符串函数的使用解析
  • Zookeeper集群搭建
  • 【计算机视觉 | 目标检测】OVD:Open-Vocabulary Object Detection 论文工作总结(共八篇)
  • C++入门基础知识[博客园长期更新......]
  • ( “树” 之 BST) 501. 二叉搜索树中的众数 ——【Leetcode每日一题】
  • openharmony内核中不一样的双向链表