当前位置: 首页 > news >正文

【数据挖掘】Pandas之DataFrame

在 Pandas 中,DataFrame 提供了丰富的数据操作功能,包括 查询、编辑、分类和汇总


1. 数据查询(Filtering & Querying)

1.1 按索引或列名查询

import pandas as pddata = {"ID": [101, 102, 103, 104, 105],"Name": ["Alice", "Bob", "Charlie", "David", "Eva"],"Age": [25, 30, 35, 40, 28],"Salary": [5000, 7000, 6000, 8000, 7200],"Department": ["HR", "IT", "Finance", "IT", "HR"]
}df = pd.DataFrame(data)# 查询某一列
print(df["Age"])  # 返回 Series
print(df[["Name", "Salary"]])  # 返回 DataFrame# 查询某一行(基于索引)
print(df.loc[2])  # 按标签索引
print(df.iloc[2])  # 按行号索引

1.2 按条件查询

# 查询 Age > 30 的员工
df[df["Age"] > 30]# 查询 IT 部门的员工
df[df["Department"] == "IT"]# 查询 Age 大于 30 且 Salary 大于 7000 的员工
df[(df["Age"] > 30) & (df["Salary"] > 7000)]

1.3 使用 query() 方法

df.query("Age > 30 & Salary > 7000")

2. 数据编辑(Updating & Modifying)

2.1 修改某列数据

# 调整所有工资增加 10%
df["Salary"] = df["Salary"] * 1.1

2.2 修改某个单元格

df.at[2, "Salary"] = 6500  # 使用 `at`(基于标签)
df.iat[2, 3] = 6500  # 使用 `iat`(基于整数索引)

2.3 添加新列

df["Bonus"] = df["Salary"] * 0.1

2.4 删除行/列

df.drop(columns=["Bonus"], inplace=True)  # 删除列
df.drop(index=2, inplace=True)  # 删除某行

2.5 重命名列

df.rename(columns={"Salary": "Income"}, inplace=True)

3. 数据分类(Categorization)

3.1 按类别转换数据

# 将 'Department' 转换为分类数据类型
df["Department"] = df["Department"].astype("category")

3.2 使用 cut() 进行数值分箱

df["Age Group"] = pd.cut(df["Age"], bins=[20, 30, 40, 50], labels=["Young", "Middle-aged", "Senior"])

3.3 使用 map() 转换数据

df["Department_Code"] = df["Department"].map({"HR": 1, "IT": 2, "Finance": 3})

4. 数据汇总(Aggregation & Grouping)

4.1 统计汇总

df.describe()  # 统计数值列的基本信息
df["Salary"].sum()  # 计算总工资
df["Salary"].mean()  # 计算平均工资
df["Salary"].median()  # 计算工资中位数
df["Salary"].std()  # 计算工资标准差

4.2 按类别分组聚合

df.groupby("Department")["Salary"].mean()  # 按部门计算平均工资
df.groupby("Department")["Salary"].agg(["mean", "max", "min"])  # 计算多个统计指标

4.3 透视表(Pivot Table)

df.pivot_table(values="Salary", index="Department", aggfunc="mean")

总结

操作方法
查询df[df["Age"] > 30]df.query()
编辑df["Salary"] = df["Salary"] * 1.1df.at[]df.drop()
分类df["Age Group"] = pd.cut()df["Department"].astype("category")
汇总df.groupby("Department").agg()df.pivot_table()

这些 Pandas 操作可以高效地管理和分析 DataFrame 数据,提高数据处理效率! 🚀

http://www.lryc.cn/news/545983.html

相关文章:

  • C++:volatile、const、mutable关键字
  • linux离线安装miniconda环境
  • 考研408数据结构线性表核心知识点与易错点详解(附真题示例与避坑指南)
  • selenium用例执行过程采集操作形成测试报告上的回复
  • 多元数据直观表示(R语言)
  • 【JavaEE】线程安全
  • HarmonyOS 5.0应用开发——多线程Worker和@Sendable的使用方法
  • 华为OD-2024年E卷-分批萨[100分]
  • SSH监控
  • leetcode日记(74)扰乱字符串
  • RV1126的OSD模块和SDL_TTF结合输出H264文件
  • GEE:计算长时间序列NPP与NDVI之间的相关系数
  • 水仙花数(华为OD)
  • 【对话状态跟踪】关心整个对话过程用户完整意图变化
  • 【分享】网间数据摆渡系统,如何打破传输瓶颈,实现安全流转?
  • TikTok创作者市场关闭!全新平台TikTok One将带来哪些改变?
  • LeetCode hot 100—矩阵置零
  • 部署Windows Server自带“工作文件夹”实现企业网盘功能完整步骤
  • 植物大战僵尸杂交版v3.3最新版本(附下载链接)
  • 非关系型数据库和关系型数据库的区别
  • CPU负载高告警问题的定位与优化建议
  • 2月28日,三极管测量,水利-51单片机
  • 批量提取 Word 文档中的图片
  • C#—Settings配置详解
  • UI自动化框架介绍
  • 【工具推荐】在线提取PDF、文档、图片、论文中的公式
  • 帮我设计一个c语言学习阶段
  • 解决windows npm无法下载electron包的问题
  • 网络编程 day01
  • 【三.大模型实战应用篇】【4.智能学员辅导系统:docx转PDF的自动化流程】