当前位置: 首页 > news >正文

python数据分析常见命令

前言

近些天我会整理一些我平时清理csv,excel数据经常用的常见命令来分享给大家学习,大家一起加油!

第一个命令:引入pandas库

pandas库是一个开源的数据分析工具,主要用于数据处理和数据分析。

import pandas as pd

第二个命令:读取数据表(.csv,.excel)

#读取csv格式的数据表
data = pd.read_csv("文件路径.csv")   
#记住文件路径的反斜杠是/,如果使用错误会报错

第三个命令:保存处理后的数据到Excel文件

#data是处理好的数据

data.to_excel("result1_1.xlsx", index=False)

第四个命令:缺少值的处理

在数据表中,我们面临着上万条数据,不能一条条查找缺少的数据,所有我们的办法就是,把有缺失的数据的行进行删除

1.查找缺失值

missing_values = data.isnull().sum()

 2.删除缺少值

data=data.dropna()

注意:如果想看到效果,需要保存处理后的数据到Excel文件

 第五个命令:重复值的处理

1.查找重复数据:

示例:查找数据中user_id字段有重复的行

duplicate_values = data.duplicated('user_id')

 2.删除重复数据

示例:删除数据中user_id字段有重复的行

data = data.drop_duplicates('user_id')

 第六个命令:删除有异常值得行

示例:删除数据中Age字段里面有-1,0,“-”值的行

data = data[~data['Age'].isin([-1, 0, "-"])]

解释:isin()函数来判断数据中的年龄是否包含在指定的列表[-1, 0, "-"]中 ,然后使用~操作符来取反,表示保留不包含在这个列表中的行,最终得到过滤后的数据。

本篇文章分享就到这里了,后续会继续更新~

http://www.lryc.cn/news/348088.html

相关文章:

  • 等保测评技术方案(五)
  • Redis缓存的基本概念和使用
  • MATLAB模拟退火算法、遗传算法、蚁群算法、粒子群算法
  • git自用随笔
  • CorelDRAW2024设计界的隐藏宝藏
  • 【JAVA】递归
  • MacOS java多版本安装与管理
  • NSSCTF | [LitCTF 2023]我Flag呢?
  • PostgreSQL-常用函数和操作符
  • 河南大学大礼堂火灾事故引发安防监控对智能分析技术应用的思考
  • 自动化中遇到的问题归纳总结
  • UE4_照亮环境_不同雾效的动态切换
  • 【解决】Android APK文件安装时 已包含数字签名相同APP问题
  • layui的treeTable组件,多层级上传按钮失效的问题解决
  • HashMap在JDK1.8的优化
  • Kotlin标准函数和静态方法
  • RabbitMQ(四种使用模式)
  • 【UE5 C++】基础学习笔记——01 UObject的创建与使用
  • TCP及IP协议
  • 运筹系列92:vrp算法包VROOM
  • 【Spring Security注解详解】
  • C++学习笔记3
  • 基于SpringBoot的酒店(预约)客房管理系统的设计与实现+毕业论文
  • Rust 中的声明可见性
  • 让 计算机 将 数学 公式 表达式 的计算过程绘制出来 【mathematical-expression(MAE)】
  • Django——中间件
  • 景联文科技:用高质量数据采集标注赋能无人机技术,引领无人机迈入新纪元!
  • SpringBoot集成Redis,使用RedisTemple存储对象使用纯JSON格式
  • [muduo网络库]——muduo库的Reactor模型(剖析muduo网络库核心部分、设计思想)
  • vue中怎样清除computed的缓存