当前位置：首页 > news >正文

矿物分类案例（二）数据填充后使用6种模型训练

news 2025/8/19 11:39:31

一.多种数据填充方法与分类模型在矿物类型识别中的对比实验

1.代码整体功能概述

2.代码解析

1. 数据准备与配置

2. 循环处理不同填充方法的数据集

3. 多模型训练与评估

4. 结果保存

5.完整代码

3.代码特点与可改进方向

代码优点

可改进方向

总结

一.多种数据填充方法与分类模型在矿物类型识别中的对比实验

在实际数据分析中，缺失值处理是数据预处理的关键步骤之一，不同的缺失值填充策略可能会对模型性能产生显著影响。同时，选择合适的分类算法也是获得良好预测效果的重要因素。本文将解析一段用于对比不同缺失值填充方法和分类模型性能的 Python 代码，该代码针对矿物类型识别任务，系统评估了多种方案的效果。

1.代码整体功能概述

这段代码的核心目标是：

测试 6 种不同缺失值处理方法（删除不完整数据行、中位数填充、众数填充、平均值填充、线性回归预测填充、随机森林预测填充）对模型性能的影响
在每种填充方法处理后的数据集上，训练并评估 6 种经典分类模型（逻辑回归、随机森林、支持向量机、AdaBoost、高斯贝叶斯、XGBoost）
将所有实验结果以 JSON 格式保存，便于后续分析对比

通过这样的对比实验，我们可以找到针对 "矿物类型" 分类任务的最佳数据预处理 + 模型组合方案。

2.代码解析

1. 数据准备与配置

首先，我们需要定义实验中使用的数据集路径，代码通过字典结构清晰地组织了不同填充方法对应的训练集和测试集：

import pandas as pd
directory={'删除不完整数据行': ['训练集[删除不完整数据行].xlsx', '测试集[删除不完整数据行].xlsx'],'中位数填充':['训练集[中位数填充].xlsx','测试集[中位数填充].xlsx'],'众数填充':['训练集[众数填充].xlsx','测试集[众数填充].xlsx'],'平均值填充':['训练集[平均值填充].xlsx','测试集[平均值填充].xlsx'],'线性回归预测填充': ['训练集[线性回归预测填充].xlsx', '测试集[线性回归预测填充].xlsx'],'随机森林预测填充': ['训练集[随机森林预测填充].xlsx', '测试集[随机森林预测填充].xlsx']
}

这种字典结构使得代码具有良好的可扩展性，如需添加新的填充方法，只需在此字典中添加相应条目即可。

2. 循环处理不同填充方法的数据集

代码通过 for 循环遍历每种填充方法，对每种方法对应的数据集进行独立的模型训练和评估：

for filename in directory:# 读取训练集和测试集train_data=pd.read_excel(directory[filename][0])test_data=pd.read_excel(directory[filename][1])# 分割特征和标签（矿物类型为目标变量）train_x=train_data.drop('矿物类型',axis=1)train_y=train_data.矿物类型test_x=test_data.drop('矿物类型',axis=1)test_y=test_data.矿物类型result_data={}  # 用于存储当前填充方法下所有模型的结果

这段代码完成了数据加载和基本的数据分割，将特征数据（train_x, test_x）和目标变量（train_y, test_y）分离，为后续模型训练做准备。

3. 多模型训练与评估

在每个填充方法的循环中，代码依次训练 6 种分类模型，并记录它们的性能指标。这里以逻辑回归为例进行说明：

# 逻辑回归模型
from sklearn.linear_model import LogisticRegression
from sklearn import metricsLR_result={}  # 存储逻辑回归的评估结果lr=LogisticRegression()
lr.fit(train_x,train_y)  # 训练模型# 评估模型性能
self_predict=lr.predict(train_x)  # 训练集上的预测
print('LR自测：'+metrics.classification_report(train_y,self_predict))predicted=lr.predict(test_x)  # 测试集上的预测
print('LR测试：'+metrics.classification_report(test_y,predicted))# 提取关键评估指标
a=metrics.classification_report(test_y,predicted,digits=6).split()
LR_result['recall0']=a[6]
LR_result['recall1']=a[11]
LR_result['recall2']=a[16]
LR_result['recall3']=a[21]
LR_result['accuracy']=a[25]
result_data['LR_result']=LR_result

上述代码的关键步骤包括：

导入模型类和评估工具
初始化模型并使用训练数据拟合
在训练集和测试集上进行预测，评估模型性能
从分类报告中提取关键指标（各类别召回率和总体准确率）
将结果存储到字典中

其他 5 种模型（随机森林、支持向量机、AdaBoost、高斯贝叶斯、XGBoost）采用完全相同的处理流程，确保评估标准的一致性，便于横向对比。

4. 结果保存

所有模型评估完成后，代码将结果保存为 JSON 文件：

import json
result={}
result['median fill']=result_data
with open(r'结果/'+filename+'result.json','w',encoding='utf-8') as file:json.dump(result,file,ensure_ascii=False,indent=4)

这种保存方式有两个优点：

结构化存储便于后续的结果分析和可视化
每个填充方法对应独立的 JSON 文件，避免结果混淆

5.完整代码

import pandas as pd
directory={'删除不完整数据行': ['训练集[删除不完整数据行].xlsx', '测试集[删除不完整数据行].xlsx'],'中位数填充':['训练集[中位数填充].xlsx','测试集[中位数填充].xlsx'],'众数填充':['训练集[众数填充].xlsx','测试集[众数填充].xlsx'],'平均值填充':['训练集[平均值填充].xlsx','测试集[平均值填充].xlsx'],'线性回归预测填充': ['训练集[线性回归预测填充].xlsx', '测试集[线性回归预测填充].xlsx'],'随机森林预测填充': ['训练集[随机森林预测填充].xlsx', '测试集[随机森林预测填充].xlsx']
}
for filename in directory:train_data=pd.read_excel(directory[filename][0])test_data=pd.read_excel(directory[filename][1])train_x=train_data.drop('矿物类型',axis=1)train_y=train_data.矿物类型test_x=test_data.drop('矿物类型',axis=1)test_y=test_data.矿物类型result_data={}#==================逻辑回归=========================from sklearn.linear_model import LogisticRegressionfrom sklearn import metricsLR_result={}lr=LogisticRegression()lr.fit(train_x,train_y)self_predict=lr.predict(train_x)print('LR自测：'+metrics.classification_report(train_y,self_predict))predicted=lr.predict(test_x)print('LR测试：'+metrics.classification_report(test_y,predicted))a=metrics.classification_report(test_y,predicted,digits=6).split()LR_result['recall0']=a[6]LR_result['recall1']=a[11]LR_result['recall2']=a[16]LR_result['recall3']=a[21]LR_result['accuracy']=a[25]result_data['LR_result']=LR_result#==================随机森林=========================from sklearn.ensemble import RandomForestClassifierRF_result={}rf=RandomForestClassifier()rf.fit(train_x,train_y)self_predict=rf.predict(train_x)print('RF自测：'+metrics.classification_report(train_y,self_predict))predicted=rf.predict(test_x)print('RF测试：'+metrics.classification_report(test_y,predicted))a=metrics.classification_report(test_y,predicted,digits=6).split()RF_result['recall0']=a[6]RF_result['recall1']=a[11]RF_result['recall2']=a[16]RF_result['recall3']=a[21]RF_result['accuracy']=a[25]result_data['RF_result']=RF_result#==================支持向量机=========================from sklearn.svm import SVCSVM_result={}svm=SVC()svm.fit(train_x,train_y)self_predict=svm.predict(train_x)print('SVM自测：'+metrics.classification_report(train_y,self_predict))predicted=svm.predict(test_x)print('SVM测试：'+metrics.classification_report(test_y,predicted))a=metrics.classification_report(test_y,predicted,digits=6).split()SVM_result['recall0']=a[6]SVM_result['recall1']=a[11]SVM_result['recall2']=a[16]SVM_result['recall3']=a[21]SVM_result['accuracy']=a[25]result_data['SVM_result']=SVM_result#==================Adaboost=========================from sklearn.ensemble import AdaBoostClassifierAdaboost_result={}Abt=AdaBoostClassifier()Abt.fit(train_x,train_y)self_predict=Abt.predict(train_x)print('Abt自测：'+metrics.classification_report(train_y,self_predict))predicted=Abt.predict(test_x)print('Abt测试：'+metrics.classification_report(test_y,predicted))a=metrics.classification_report(test_y,predicted,digits=6).split()Adaboost_result['recall0']=a[6]Adaboost_result['recall1']=a[11]Adaboost_result['recall2']=a[16]Adaboost_result['recall3']=a[21]Adaboost_result['accuracy']=a[25]result_data['Adaboost_result']=Adaboost_result#==================高斯贝叶斯=========================from sklearn.naive_bayes import GaussianNBGs_result={}Gs=GaussianNB()Gs.fit(train_x,train_y)self_predict=Gs.predict(train_x)print('GS自测：'+metrics.classification_report(train_y,self_predict))predicted=Gs.predict(test_x)print('GS测试：'+metrics.classification_report(test_y,predicted))a=metrics.classification_report(test_y,predicted,digits=6).split()Gs_result['recall0']=a[6]Gs_result['recall1']=a[11]Gs_result['recall2']=a[16]Gs_result['recall3']=a[21]Gs_result['accuracy']=a[25]result_data['Gs_result']=Gs_result#==================XGBoost=========================需要另外pipimport xgboost as xgbXGB_result={}xgb_model=xgb.XGBClassifier()xgb_model.fit(train_x,train_y)self_predict=xgb_model.predict(train_x)print('XGB自测：'+metrics.classification_report(train_y,self_predict))predicted=xgb_model.predict(test_x)print('XGB测试：'+metrics.classification_report(test_y,predicted))a=metrics.classification_report(test_y,predicted,digits=6).split()XGB_result['recall0']=a[6]XGB_result['recall1']=a[11]XGB_result['recall2']=a[16]XGB_result['recall3']=a[21]XGB_result['accuracy']=a[25]result_data['XGB_result']=XGB_result#保存为json文件import jsonresult={}result['median fill']=result_datawith open(r'结果/'+filename+'result.json','w',encoding='utf-8') as file:# 使用json的dump()方法将字典转化为JSON格式并写入文件,JSON一般是字典json.dump(result,file,ensure_ascii=False,indent=4)