当前位置: 首页 > news >正文

【Python】缺失值可视化工具库:missingno

文章目录

    • 一、前言
    • 二、下载
    • 二、使用介绍
      • 2.1 绘制缺失值条形图
      • 2.2 绘制缺失值热力图
      • 2.3 缺失值树状图
    • 三、参考资料

一、前言

在我们进行机器学习或者深度学习的时候,我们经常会遇到需要处理数据集缺失值的情况,那么如何可视化数据集的缺失情况呢?这里介绍一种方法:

使用missingno包!

missingno提供了一个灵活且易于使用的缺少数据可视化工具和实用程序的小型工具集,使你可以快速直观地概述数据集的完整性。

二、下载

pip install missingno

二、使用介绍

missingno一般配合numpypandas一起使用,如下是一个案例:

在这里插入图片描述
空白越多说明缺失越严重。

比如我们的一个数据集是data_2

2.1 绘制缺失值条形图

plt.rcParams['font.sans-serif'] = ['STSong']
import missingno as msn
msn.matrix(data_2, labels = False, label_rotation = 90)

在这里插入图片描述

msn.bar(data_2)

在这里插入图片描述

2.2 绘制缺失值热力图

missingno相关性热力图可以显示无效的相关性:一个变量的存在或不存在如何强烈影响的另一个的存在。

数值为1:两个变量一个缺失另一个必缺失;

数值为-1:一个变量缺失另一个变量必然不缺失。

数值为0:变量缺失值出现或不出现彼此没有影响。

热力图非常适合于选择变量对之间的数据完整性关系,但是当涉及到较大的关系时,其解释力有限,并且它不特别支持超大型数据集。

注:始终为满或始终为空的变量没有任何有意义的关联,因此会从可视化中删除。

msno.heatmap(collisions)

在这里插入图片描述

2.3 缺失值树状图

通过树状图,可以更全面地观察缺失变量的关联性,揭示比关联热力图更深刻的相关关系:

msno.dendrogram(collisions)

在这里插入图片描述

树状图使用层次聚类算法通过变量的无效相关性(以二进制距离来衡量)将变量彼此分类。

在树的每个步骤中,根据哪个组合最小化其余群集的距离来对变量进行拆分。变量集越单调,它们的总距离越接近零,而它们的平均距离(y轴)越接近零。以零距离链接在一起的簇叶完全可以预测彼此的存在-一个变量在填充另一个变量时可能始终为空,或者它们可能始终都被填充或都为空,依此类推。

簇叶几乎分裂为零,但不分裂为零,彼此预测得很好,但仍不完美。

如果你自己的数据集的解释是,这些列实际上是或者应该是在无效相互匹配(例如,作为CONTRIBUTING FACTOR VEHICLE 2和VEHICLE TYPE CODE 2应该),那么集群叶的高度告诉你,在绝对数量,记录多久是“不匹配”或提交错误的文件,也就是说,如果您愿意,则必须填写或删除多少个值。

三、参考资料

https://blog.csdn.net/qq_42722197/article/details/124464365
http://www.lryc.cn/news/12001.html

相关文章:

  • 【代码随想录二刷】Day18-二叉树-C++
  • 制造业的云ERP在外网怎么访问?内网服务器一步映射到公网
  • zookeeper 复习 ---- 练习
  • 2023年全国最新道路运输从业人员精选真题及答案1
  • Java每日一练——Java简介与基础练习
  • 解决Edge浏览器主页被篡改问题,或许可以帮你彻底解决
  • 字符设备驱动基础(一)
  • 将 Supabase 作为下一个后端服务
  • 14:高级篇 - CTK 服务工厂 简述
  • Java中的链表实现介绍
  • 演示Ansible中的角色使用方法(ansible roles)
  • Bash Shell 通过ls命令筛选文件
  • 2023-2-18 刷题情况
  • 【Linux】进程控制
  • 谷歌seo快排技术怎么做?Google排名霸屏推广原理
  • MySQL的优化
  • 实现qq群消息接收和发送功能
  • 压缩20M文件从30秒到1秒的优化过程
  • 如何选择合适的固态继电器?
  • SAP 忘记SAP系统Client 000的所有账号密码
  • Connext DDS可扩展类型Extensible Types指南
  • Docker简单使用
  • A Time Series is Worth 64 Words(PatchTST模型)论文解读
  • 微服务学习:SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式
  • nginx平滑升级
  • 高可用的“异地多活”架构设计
  • 【面试题】Map和Set
  • Spring之事务底层源码解析
  • 【华为OD机试真题 Python】创建二叉树
  • RuoYi-Vue-Plus搭建(若依)