当前位置：首页 > news >正文

Python pandas常见函数

news 2025/8/20 3:28:35

Pandas库

- - 基本概念
  - 读取数据
  - 数据处理
  - 数据输出
  - 其他常用功能

pip install pandas

基本概念

数据结构

Series: 一维数据结构

import pandas as pd
data = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print(data)

DataFrame: 二维数据结构

data = {'Name': ['Alice', 'Bob', 'Charlie'],'Age': [25, 30, 35]
}
df = pd.DataFrame(data)
print(df)

读取数据

从 CSV 文件读取数据

df = pd.read_csv('file.csv')
print(df.head())

从 Excel 文件读取数据

df = pd.read_excel('file.xlsx', sheet_name='Sheet1')
print(df.head())

从 SQL 查询读取数据

import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql_query('SELECT * FROM table', conn)
print(df.head())

数据处理

查看数据
- 查看前 5 行
```
print(df.head())
```
- 查看后 5 行
```
print(df.tail())
```
- 查看数据的简要信息
```
print(df.info())
```
- 查看数据的统计摘要
```
print(df.describe())
```

选择和过滤数据

按列选择
```
print(df['Name'])
```

按行选择

print(df.loc[0])  # 按标签
print(df.iloc[0])  # 按位置

条件过滤

filtered_df = df[df['Age'] > 30]
print(filtered_df)

数据清洗

处理缺失值

df = df.dropna()  # 删除含缺失值的行
df = df.fillna(0)  # 将缺失值填充为 0

去重
```
df = df.drop_duplicates()
```
数据类型转换
```
df['Age'] = df['Age'].astype(float)
```

数据操作

添加列
```
df['Country'] = 'USA'
```
删除列
```
df = df.drop('Country', axis=1)
```

重命名列

df = df.rename(columns={'Name': 'Full Name'})

数据聚合

按组聚合

grouped_df = df.groupby('Country').agg({'Age': 'mean'})
print(grouped_df)

合并数据

df1 = pd.DataFrame({'ID': [1, 2], 'Value': ['A', 'B']})
df2 = pd.DataFrame({'ID': [1, 2], 'Score': [85, 90]})
merged_df = pd.merge(df1, df2, on='ID')
print(merged_df)

拼接数据

df1 = pd.DataFrame({'Name': ['Alice', 'Bob']})
df2 = pd.DataFrame({'Name': ['Charlie', 'David']})
concatenated_df = pd.concat([df1, df2], ignore_index=True)
print(concatenated_df)

数据排序

按列排序

sorted_df = df.sort_values(by='Age')
print(sorted_df)

排序方向

sorted_df = df.sort_values(by='Age', ascending=False)
print(sorted_df)

数据输出

保存为 CSV 文件
```
df.to_csv('output.csv', index=False)
```

保存为 Excel 文件

df.to_excel('output.xlsx', index=False)

其他常用功能

透视表

pivot_table = pd.pivot_table(df, values='Age', index='Country', aggfunc='mean')
print(pivot_table)

时间序列

日期时间转换

df['Date'] = pd.to_datetime(df['Date'])

设置时间索引
```
df = df.set_index('Date')
```

查看全文

http://www.lryc.cn/news/419735.html

行业落地分享：阿里云搜索RAG应用实践

【SQL】温度比较

Istio 项目会往用户的 Pod 里注入 Envoy 容器，用来代理 Pod 的进出流量，这是什么设计模式？

（24）(24.1) FPV和仿真的机载OSD（三）

测试开发岗面试总结

编程-设计模式 7：桥接模式

C语言----结构体

基于HKELM混合核极限学习机多输出回归预测 (多输入多输出) Matlab代码

经纬恒润荣获小米汽车优秀质量奖！

Linux 软件编程学习第十一天

hive udtf 函数：输入一个字符串，将这个字符串按照特殊的逻辑处理之后，输出4个字段

【实现100个unity特效之16】unity2022之前或者之后版本实现全屏shader graph的不同方式 —— 适用于人物受伤红屏或者一些其他状态效果

比特币使用ord蚀刻符文---简单笔记

大数据-74 Kafka 高级特性稳定性 - 控制器、可靠性副本复制、失效副本、副本滞后多图一篇详解

c# 什么是扩展方法

全屏组件封装（react18+antd）

wordpress全局自适应网址导航整站打包源码，含主题和数据库

PyTorch深度学习框架

Python和AI库NumPy（二）：数组创建与操作

GD32 SPI驱动代码

Qgis 开发初级《数据库和图层》

三大机器学习框架对比：TensorFlow、PyTorch与Scikit-Learn

Apache OFBiz 曝出严重漏洞，允许预身份验证 RCE

SpringCloud 微服务nacos和eureka

Java学习篇（一）| 如何生成分布式全局唯一ID

c++ 弹窗办法

小程序使用this.animate实现3维动画切换

【区块链+社会公益】第一反应互助急救链 | FISCO BCOS应用案例

leetcode 136. 只出现一次的数字

可扩展架构设计：策略与最佳实践