当前位置：首页 > news >正文

Python 数据分析与可视化 Day 2 - 数据清洗基础

news 2025/9/12 5:58:43

🎯 今日目标

学会识别和处理缺失数据（NaN）
学会删除/填补缺失值
清理重复数据
修改列类型，准备数据分析

🧼 一、缺失值处理（NaN）

✅ 1. 检查缺失值

import pandas as pd
df = pd.read_csv("students.csv")print(df.isnull())        # 每个元素是否为 NaN
print(df.isnull().sum())  # 每列缺失值数量

✅ 2. 删除缺失数据

df.dropna()            # 删除包含 NaN 的行
df.dropna(axis=1)      # 删除包含 NaN 的列

inplace=True 参数可以就地修改，不返回新对象。

✅ 3. 填充缺失数据

df.fillna(0)               # 全部填 0
df["成绩"].fillna(df["成绩"].mean())   # 用均值填充
df.fillna(method="ffill")  # 用上一行填
df.fillna(method="bfill")  # 用下一行填

🔁 二、重复值处理

✅ 1. 检测重复数据

df.duplicated()            # 标记每行是否重复（默认所有列）
df.duplicated(subset=["姓名"])  # 指定列检查

✅ 2. 删除重复数据

df.drop_duplicates(inplace=True)

🔧 三、数据类型转换

df["成绩"] = df["成绩"].astype(float)
df["是否及格"] = df["是否及格"].astype(bool)

可以使用 df.dtypes 查看所有列的数据类型。

🧪 今日练习任务

使用以下示例数据，完成清洗操作：

姓名,性别,成绩,是否及格
张三,男,88,True
李四,女,,True
王五,男,59,False
张三,男,88,True
赵六,,92,True
田七,女,NaN,

📝 任务：

加载该 CSV 文件为 DataFrame
检查每列缺失值数量
删除性别缺失的行
用“成绩”列均值填补成绩缺失值
删除重复的行（姓名、成绩相同）

将“成绩”列类型设置为 float，将“是否及格”填补为 False

import pandas as pd
import os# 路径设置
input_path = "./data/students_dirty.csv"
output_path = "./data/students_cleaned.csv"# 确保输出目录存在
os.makedirs(os.path.dirname(output_path), exist_ok=True)# 加载原始数据
df = pd.read_csv(input_path)
print("原始数据：")
print(df)# 1. 检查每列缺失值数量
print("\n缺失值统计：")
print(df.isnull().sum())# 2. 删除性别缺失的行
df = df.dropna(subset=["性别"])# 3. 用“成绩”列均值填补缺失值
# 保留整数部分，四舍五入到整数
mean_score = df["成绩"].mean().round()
df["成绩"] = df["成绩"].fillna(mean_score)# 4. 删除重复的行（默认检查所有列）
df = df.drop_duplicates()# 5. 填补“是否及格”空缺值为 False
with pd.option_context("future.no_silent_downcasting", True):df = df.fillna(False).infer_objects(copy=False)# 6. 数据类型转换
df["成绩"] = df["成绩"].astype(float)
df["是否及格"] = df["是否及格"].astype(bool)# 显示清洗结果
print("\n清洗后的数据：")
print(df)# 保存结果
df.to_csv(output_path, index=False, encoding="utf-8")
print(f"\n✅ 清洗后的数据已保存至 {output_path}")

✅ 示例输出（清洗后）

原始数据：姓名   性别    成绩   是否及格
0  张三    男  88.0   True
1  李四    女   NaN   True
2  王五    男  59.0  False
3  张三    男  88.0   True
4  赵六  NaN  92.0   True
5  田七    女   NaN    NaN缺失值统计：
姓名      0
性别      1
成绩      2
是否及格    1
dtype: int64清洗后的数据：姓名 性别    成绩   是否及格
0  张三  男  88.0   True
1  李四  女  78.0   True
2  王五  男  59.0  False
5  田七  女  78.0  False✅ 清洗后的数据已保存至 ./data/students_cleaned.csv

     姓名 性别    成绩 是否及格
0    张三  男  88.0   True
1    李四  女  79.7   True
2    王五  男  59.0  False
3    田七  女  79.7  False

在这里插入图片描述

✍️ 今日总结

掌握了 dropna()、fillna()、drop_duplicates() 等数据清洗方法
学会判断和填补缺失值
理解了数据类型转换在分析前的重要性

查看全文

http://www.lryc.cn/news/572594.html

如何轻松将照片从 iPhone 传输到 Android？

从“数据困境”到“数据生态”：DaaS重塑三甲医院医疗数据治理

【RTSP从零实践】2、使用RTP协议封装并传输H264

基于Gold-YOLO的聚合-分发机制改进YOLOv8教程

电影感户外柔和光线人像街拍摄影后期Lr调色教程，手机滤镜PS+Lightroom预设下载！

【世纪龙科技】智能网联汽车装调仿真教学软件数智化赋能实训教学

魅族“换血”出牌：手机基本盘站不稳，想靠AI和汽车“改命”

Servlet容器（Web容器）简介

Windows + R组合键常用命令

Qi无线充电：车载充电的便捷与安全之选

大数据系统架构实践（一）：Zookeeper集群部署

分布式系统中的 Kafka：流量削峰与异步解耦（二）

Unity3d中使用Mirror进行自定义消息通信

磐基PaaS平台MongoDB组件SSPL许可证风险与合规性分析（下）

设计模式精讲 Day 8：组合模式（Composite Pattern）

Git——分布式版本控制工具

深度学习N5周：Pytorch文本分类入门

android 渲染流水线中的两个重要阶段：swapBuffers 和 DrawFrames

【Oracle专栏】ORA-04036 报错 PGA设置

Android开发常用adb合集

医疗AI大数据处理流程的全面解析：从数据源到应用实践

SSE 流与普通 HTTP 响应的区别

防抖不同的实现

领码 SPARK 融合平台赋能工程建设行业物资管理革新——数智赋能，重塑中国模式新范式

阿里云OSS对象云储存入门操作

【Leetcode】字符串之二进制求和、字符串相乘

智能危险品搬运机器人市场报告：行业趋势与未来展望

深度学习笔记27-LSTM实现糖尿病探索与预测(Pytorch)

华为云Flexus+DeepSeek征文 | 利用Dify平台构建多智能体协作系统：从单体到集群的完整方案

SpringMVC知识点总结

🎯 今日目标

🧼 一、缺失值处理（NaN）

✅ 1. 检查缺失值

✅ 2. 删除缺失数据

✅ 3. 填充缺失数据

🔁 二、重复值处理

✅ 1. 检测重复数据

✅ 2. 删除重复数据

🔧 三、数据类型转换

🧪 今日练习任务

📝 任务：

✅ 示例输出（清洗后）

✍️ 今日总结

相关文章：