当前位置：首页 > news >正文

python数据处理常用操作

news 2025/9/13 0:22:18

数据处理是机器学习中非常重要的一步，以下是一些常用的操作和示例代码：

1. 数据清洗

处理缺失值：

import pandas as pd# 读取数据
df = pd.read_csv('data.csv')# 删除缺失值
df.dropna(inplace=True)# 用均值填充缺失值
df.fillna(df.mean(), inplace=True)

处理异常值：

# 识别异常值（例如，超过3个标准差的值）
df = df[(df - df.mean()).abs() < 3 * df.std()]

处理重复数据：

# 删除重复行
df.drop_duplicates(inplace=True)

2. 数据转换

标准化：

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
df[['feature1', 'feature2']] = scaler.fit_transform(df[['feature1', 'feature2']])

归一化：

from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()
df[['feature1', 'feature2']] = scaler.fit_transform(df[['feature1', 'feature2']])

编码分类变量：

df = pd.get_dummies(df, columns=['categorical_column'])

3. 数据分割

将数据集划分为训练集、验证集和测试集：

from sklearn.model_selection import train_test_splittrain, test = train_test_split(df, test_size=0.2, random_state=42)
train, val = train_test_split(train, test_size=0.2, random_state=42)

4. 数据加载

从CSV加载数据：
```
df = pd.read_csv('data.csv')
```
从Excel加载数据：
```
df = pd.read_excel('data.xlsx')
```

从数据库加载数据（假设使用SQLite）：

import sqlite3conn = sqlite3.connect('database.db')
df = pd.read_sql_query('SELECT * FROM table_name', conn)

5. 数据可视化

使用Matplotlib进行可视化：

import matplotlib.pyplot as pltplt.hist(df['feature'], bins=30)
plt.title('Feature Distribution')
plt.xlabel('Feature')
plt.ylabel('Frequency')
plt.show()

使用Seaborn进行可视化：

import seaborn as snssns.boxplot(x='categorical_column', y='numerical_column', data=df)
plt.title('Boxplot of Numerical Column by Categorical Column')
plt.show()

这些操作是数据处理的基本步骤，可以根据具体情况进行调整。

学习资源分享：

书籍：
- 《Python for Data Analysis》 by Wes McKinney。
- 《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow》 by Aurélien Géron。
在线教程和文档：
- Pandas官方文档：https://pandas.pydata.org/docs/
- NumPy官方文档：https://numpy.org/doc/
- Matplotlib官方文档：https://matplotlib.org/stable/contents.html
- Scikit-learn官方文档：https://scikit-learn.org/stable/user_guide.html
交互式学习平台：
- Kaggle：提供大量数据集和实践项目，可以边学边做。
- DataCamp：提供交互式Python数据科学课程。