pandas常用操作
`pandas`是Python中用于数据操作和分析的强大库。以下是一些常用的操作:
### 1. 读取数据
- **从CSV文件读取**:
```python
import pandas as pd
df = pd.read_csv('path/to/file.csv')
```
- **从Excel文件读取**:
```python
df = pd.read_excel('path/to/file.xlsx', sheet_name='Sheet1')
```
### 2. 数据查看
- **显示前几行**:
```python
df.head() # 默认显示前5行
```
- **显示后几行**:
```python
df.tail()
```
- **查看数据信息**:
```python
df.info()
```
- **基本统计信息**:
```python
df.describe()
```
### 3. 数据选择
- **选择列**:
```python
df['column_name']
df.column_name
```
- **选择多列**:
```python
df[['column1', 'column2']]
```
- **基于条件选择行**:
```python
df[df['column'] > 0]
```
- **选择行和列**:
```python
df.loc[row_indexer, column_indexer] # 标签索引
df.iloc[row_indexer, column_indexer] # 位置索引
```
### 4. 数据处理
- **删除列**:
```python
df.drop('column_name', axis=1, inplace=True)
```
- **删除行**:
```python
df.drop(0, axis=0, inplace=True) # 删除第一行
```
- **填补缺失值**:
```python
df.fillna(value, inplace=True)
```
- **重命名列**:
```python
df.rename(columns={'old_name': 'new_name'}, inplace=True)
```
- **更改列类型**:
```python
df['column_name'] = df['column_name'].astype('int')
```
### 5. 数据聚合与分组
- **分组操作**:
```python
grouped = df.groupby('column_name')
grouped.mean() # 按组计算平均值
```
- **应用函数**:
```python
df['column_name'].apply(lambda x: function(x))
```
### 6. 数据合并
- **合并数据框**:
```python
pd.concat([df1, df2]) # 按行合并
pd.merge(df1, df2, on='key_column') # 按列合并
```
### 7. 数据清洗
- **处理重复行**:
```python
df.drop_duplicates(inplace=True)
```
- **处理缺失数据**:
```python
df.dropna() # 删除有缺失值的行
```
### 8. 数据保存
- **保存为CSV文件**:
```python
df.to_csv('output.csv', index=False)
```
- **保存为Excel文件**:
```python
df.to_excel('output.xlsx', index=False)
```
这些只是`pandas`库中最常用的一些操作。`pandas`的功能非常丰富,涵盖了数据处理的方方面面,具体使用时可以参考其官方文档或社区资源来解决更复杂或特定的问题。