当前位置: 首页 > news >正文

数据清洗操作及众所周知【数据分析】

各位大佬好 ,这里是阿川的博客 , 祝您变得更强

在这里插入图片描述 个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

阿川水平有限,如有错误,欢迎大佬指正 在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

前面的博客
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
Python初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
数据清洗前 必看
数据分析—三前奏:获取/ 读取/ 评估数据

这是目录

  • 清洗乱数据
    • 基本操作
    • 清洗
  • 清洗脏数据
  • 元素类型转换
  • 保存数据

清洗乱数据

针对结构类乱数据
不符合以下特征
请添加图片描述

基本操作

引入

  • 基本上操作DataFrame的方法,一般是不改变 原始的DataFrame
  • Series和DataFrame 几乎是不可分割 Series组成了DataFrame,数据分析中,有大量针对DataFrame和Series进行的操作

须知道的:

  • 清洗索引和列名

    • set_index 重设索引

    • reset_index 重置索引

    • sort_index 对索引排序

    • rename index 重命名索引

    • rename columns 重命名列名

      • inplace = True 该参数表示在原先DataFrame基础上永久替换
    • drop 删除列或者索引

      • axis=0 删除行
      • axis=1 删除列
  • str类方法

    • 专门针对Series进行的方法
      • pandas官网大全

请添加图片描述

请添加图片描述

清洗

  • 列和行相反
    • 转置 .T
  • 对列进行拆分
    • split 可以指定分隔符进行拆分
      • str.split元素进行拆分
        • 参数 expand=True 表示将分割后结果单独用Series表示

请添加图片描述

  • 不同列合并成一列
    • str.cat
    • sep参数 以什么分隔符合并

请添加图片描述

  • 宽数据转化成长数据
    • melt
    • id_vars 表示不动原先的列

请添加图片描述

  • 行进行拆分
    • 拆解更多的行
      • explode列中的元素 拆分成更多行
        • 适用列表类型
      • 若列中元素字符串类型,则用eval转化成列表类型

请添加图片描述

清洗脏数据

内容上(即脏数据)进行清洗

  • 丢失数据
    loc 对某个缺失值处理

请添加图片描述

fillna 对缺失值处理

  • dropna 自动找行缺失值且自动删除

请添加图片描述

  • 重复数据
    • drop_duplicates 删除 重复第2个数据
      • subset 参数 指定列
      • keep 进行指定保留

请添加图片描述

  • 错误/不一致数据
    • replace进行替换

请添加图片描述

元素类型转换

不同的DataFrame元素类型可能不同

  • astype 更改类型

请添加图片描述

  • 数据有两种元素类型
    • 分类数据
    • 例如奖牌 金银铜三可能
      • category 分类数据类型 后面虚拟变量铺垫
        • 由于category非pandas库中的类型,所以说要更改类型为category,需要字符串

请添加图片描述

  • 数值数据
    • 例如0~1区间有很多数值

保存数据

  • to_csv 保存格式为csv
    • index=False 参数表示自动忽略索引

请添加图片描述
好的,到此为止啦,祝您变得更强

在这里插入图片描述

道阻且长 行则将至

个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

http://www.lryc.cn/news/353705.html

相关文章:

  • 炫酷gdb
  • windows 7 10 11快捷键到启动页面
  • [处理器芯片]-6 超标量CPU实现之浮点运算
  • 又有人叫嚣:AI取代前端,来给你几张图,看能不能憋死AI。
  • ISCC2024个人挑战赛WP-WEB
  • Android 使用 adb 列出设备上所有危险权限
  • Spring AOP源码分析
  • [LLM]从GPT-4o原理到下一代人机交互技术
  • 【Spring】AOP——通知(Advice)
  • python中的一些基础概念
  • 8.Redis之hash类型
  • Edge浏览器
  • springboot项目中图片上传之后需要重启工程才能看到图片?
  • 打卡信奥刷题(20)用Scratch图形化工具信奥B3756 [信息与未来 2021] 幸运数字
  • Stream流模式通信及示例
  • 从0开始学统计-t分布
  • Git总结超全版
  • 网络安全之安全协议浅谈
  • 华为云部署前端项目发生的事
  • 需求:实现一个可以统计代码的运行时间
  • 软考高级之redis中使用zset实现延迟队列,你答对了么?
  • CS 下载安装详解
  • 前端canvas项目实战——在线图文编辑器(十):小地图MiniMap(上)
  • linux的chmod的数字太难记了,用u, g, o, a更简单!
  • 牛客热题:有效括号
  • 利用SQL语句实现多表联合查询——多表关系介绍
  • Java中IO流类的体系
  • 【调试笔记-20240521-Linux-编译 QEMU/x86_64 可运行的 OpenWrt 固件】
  • GitLab的原理及应用详解(六)
  • 【调和级数】100321. 优质数对的总数 II