机器学习数据预处理总结(复习:Pandas, 学习:preprocessing)
缺失值处理
检测方法:isnull()检测空值
删除策略:dropna()删除空行/列
填充方法:
均值填充:fillna(mean())
中位数填充:fillna(median())
众数填充:fillna(mode())
常数填充:fillna(常数)
标准化方法
最小最大标准化:MinMaxScaler()
公式:(x-min)/(max-min)
范围:[0,1]区间
Z-score标准化:StandardScaler()
公式:(x-mean)/std
特点:均值为0,方差为1
特征编码技术
名义变量(独立类别):
独热编码OneHotEncoder
生成二进制向量
有序变量(有顺序类别):
序号编码OrdinalEncoder
保持顺序关系
有距变量(可计算数值):
保持原始数值
或分段离散化
二值化处理
Binarizer()二值转换
阈值分割:>阈值为1,否则为0
应用场景:特征工程、文本处理
关键工具
Pandas:基础数据处理
SimpleImputer:缺失值填充
预处理类:StandardScaler/MinMaxScaler
编码器:OneHotEncoder/OrdinalEncoder
处理流程
1. 缺失值检测与处理
2. 特征类型识别与编码
3. 数据标准化/归一化
4. 二值化转换(可选)
注意事项
训练集与测试集使用相同转换器
避免数据泄露:先拆分再预处理
分类变量编码后需处理稀疏矩阵
连续变量标准化改善模型收敛