当前位置：首页 > news >正文

【数据评估与清洗】对数据结构和内容进行清洗

news 2025/7/1 3:26:58

评估数据

结构方面
- 需要清理：乱数据
- 不需要清理：整洁数据
  - 每列是一个变量
  - 每行是一个观察值
  - 每个单元格是一个值
内容方面
- 需要清理：脏数据
  - 丢失数据
  - 重复数据
  - 不一致数据
  - 无效或错误数据
- 不需要清理：干净数据

# 获取整体信息
df.info()
# 获取开头/结尾/随机数据来评估
df.head(10)
df.tail(10)
df.sample(10)
# 调整展示上限
pd.set_option("display.max_columns", 150)
pd.set_option("display.max_colwidth", 500)# 评估丢失数据
# 返回布尔值组成的Series或DataFrame
scores["考试2"].isnull()
df.isnull()
# 获取空缺值数量
scores["考试2"].isnull().sum()
df.isnull().sum()
# 提取丢失数据的行
scores[scores["考试2"].isnull()]# 评估重复数据
students["学号"].duplicated()
students.duplicated(subset=["学号","性别"])# 评估不一致数据
students["班级"].value_counts()# 评估无效/错误数据
# 排序
students["身高"].sort_values()
students.describe()

清洗数据

结构方面：更改为整洁数据结构
内容方面
- 丢失数据
  - 人工填入缺失值
  - 不处理缺失值
  - 把有缺失值的行删除
  - 用例如平均数等填充代替缺失值
- 重复数据：删除
- 不一致数据：统一
- 无效数据：删除或替换
- 数据类型转换
实际操作

# 重命名索引和列名(原变量不变，需要重新赋值或可选参数inplace=True
df1.rename(index={"2_":"2", "_5":"5", "6*":"6"})
df1.rename(columns={"2_":"2", "_5":"5", "6*":"6"})
df2.rename(index=某函数/方法）
df2.rename(columns=str.upper） # 大写
# 更多Series相关方法：https://pandas.pydata.org/docs/reference/api/pandas.Series.html
# 更多DataFrame相关方法：https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html# 重设索引
# 将列值作为索引
df3.set_index("Salesperson")
# 还原
df3.reset_index()# 对索引和列名重新排序(原变量不变，需要重新赋值或可选参数inplace=True
df4.sort_index()# 对数据进行转置
df1 = df1.T
# 对列进行拆分
df2[["人口", "面积"]] = df2["人口密度"].str.split("/", expand=True)
df2 = df2.drop("人口密度", axis=1)
# 把不同列合并成一列
df3["姓].str.cat(df3["名"], sep="-")
# 把宽数据转换成长数据（列名变成列值）
df4 = pf.melt(df4, id_vars=['不变的列名'], var_name='列名所在列列名', value_name='原列值所在列列名')
# 对行进行拆分
df5.explode("课程列表")
# 删除行，删除列(原变量不变，需要重新赋值或可选参数inplace=True
df6.drop(2)
df6.drop(["列","lie"],axis=1)# 对整列缺失值进行填充（索引定位）
df1["国家"] = "中国"
# 对某个缺失值进行填充
df2.loc["003":"004", "销售额"] = 800
# 自动找到缺失值进行填充
df4["B"].fillna(df["B"].mean())
df4.fillna(0)
df4.fillna({'A': 0, 'B': 10}) # 不同列可指定替换值
# 删除存在缺失值的行(原变量不变，需要重新赋值或可选参数inplace=True
df5.dropna()
df5.dropna(subset=["工资"]) # 控制范围
# 删除重复数据(原变量不变，需要重新赋值或可选参数inplace=True
df6["姓名"].drop_duplicates()
df6.drop_duplicates(subset=['a','b']， keep='last') #同时重复，保留最后
# 对值进行替换（不一致数据）(原变量不变，需要重新赋值或可选参数inplace=True
df7.replace(["hnu", "湖大"], "湖南大学")
df7.replace("hnu": "湖南大学")
# 对值的类型进行转换
# 分类数据建议转换为category，有利于减小内存，让Pandas自动选用合适的统计方法或图表类型
s1=pd.Series(["1","2","3"])
s1.astype("category")

保存数据(覆盖原始数据）

df1.to_csv("cleaned_sales_data.csv")
# 读取时会将索引作为第一列，需要更改列名并将其重新设置为索引# 写入时忽略索引(索引无关键信息）
df1.to_csv("cleaned_sales_data2.csv"， index=False)

查看全文

http://www.lryc.cn/news/447102.html

机器学习和深度学习的区别

UE虚幻引擎云渲染汽车动画的优势！

Teams集成-会议侧边栏应用开发-实时转写

归并排序，外排序，计数排序(非比较排序)

使用离火插件yoloV8数据标注，模型训练

JavaScript 学习

【算法】分治：归并之 912.排序数组（medium)

Cocos 3.8.3 实现外描边效果（逃课玩法）

著名建筑物检测与识别系统源码分享

使用php生成图片

C++ 数据类型分类

java安装更新jdk11后设置环境JAVA_HOME

一篇文章讲清楚synchronized关键字的作用及原理

深度学习模型之BERT的24个小模型源码与预训练紧凑模型的重要性

【HarmonyOS】深入理解@Observed装饰器和@ObjectLink装饰器：嵌套类对象属性变化

Java笔试面试题AI答之设计模式（1）

java调用opencv部署到centos7

【python qdrant 向量数据库完整示例代码】

初识C语言(三)

用通义灵码如何快速合理解决遗留代码问题？

新书推荐——《Python贝叶斯深度学习》

数据结构-3.1.栈的基本概念

关于 NLP 应用方向与深度训练的核心流程

linux如何启用ipv6随机地址

探索 Android DataBinding：实现数据与视图的完美融合

Java 编码系列：线程基础与最佳实践

评估数据

清洗数据

保存数据(覆盖原始数据）

相关文章：