当前位置：首页 > news >正文

矿物分类案列（一）六种方法对数据的填充

news 2025/8/18 8:58:26

矿物数据项目介绍：

数据问题与处理方案：

数据填充策略讨论：

模型选择与任务类型：

模型训练计划：

一.数据集填充

1.读取数据

2.把标签转化为数值

3.把异常数据转化为nan

4.数据Z标准化

5.划分训练集测试集

6.创建一个新的fill_data.py文件，用来存放填充训练数据和填充测试数据的方法

方法①：删除有缺失值的行

方法②：平均值填充处理（测试集用训练集对应的平均值来填充）

方法③：中位数填充处理（测试集用训练集对应的中位数来填充）

方法④：众数填充处理（测试集用训练集对应的众数来填充）

7.调用填充方法，生成各自方法填充后的数据，并保存到各自的excel文件中

矿物数据项目介绍：

数据类型：每行记录矿物微量元素（氯、钠、镁等）及类别（A/B/C/D/E）（注意:发现类别 E 仅有一条数据，无法用于模型训练，所以我们应该删除该数据）

任务目标：构建分类模型，通过微量元素自动识别矿物类型（A/B/C/D）

数据问题与处理方案：

异常值：如“7.97”（应为7.97）、“41.12”（应为41.12）等输入错误，需手动修正。
缺失值填充：
方法A：按类别分组填充（如A类用A类均值/众数/中位数）。
方法B：智能填充（如逻辑回归、随机森林等算法预测缺失值）。
特征工程：特征数量较少（约10个），无需降维。

发现数据中存在隐藏空格（如“思”列），导致NaN检测失败，需手动清理空格干扰。
其他问题：斜杠（如PH值列）、单一类别数据列（如“异”列）需删除或特殊处理。

数据填充策略讨论：

优先填充缺失值最少的列（如F列仅缺3个值），以增加完整数据量，便于后续预测其他列（如K列）。
填充顺序：从缺失少的列到缺失多的列，以提高填充准确性。
强调利用已有数据（包括部分缺失的数据）进行训练，而非仅依赖完全完整的数据。

模型选择与任务类型：

确定当前任务为回归问题（因预测目标Y为连续型数据）。
可用回归模型包括：SVR（SVM变体）、KNN、随机森林、线性回归等。

模型训练计划：

多模型对比：尝试逻辑回归、随机森林、支持向量机、XGBoost等，调参后评估效果（准确率、召回率等）。
步骤：
数据预处理（清洗、填充缺失值）。
分模型训练与调参（交叉验证）。
生成对比表格，选择最优模型。

=========================================================================

下面我们先用四种方法来填充数据分别是删除空白数据行处理，平均值填充处理，中位数填充处理，众数填充处理

一.数据集填充

部分数据如下

1.读取数据

删除仅有一行数据的‘E’类数据，并删除无关列‘序号’

import pandas as pd
data=pd.read_excel('矿物数据.xlsx')
data=data[data['矿物类型']!='E']
data=data.drop('序号',axis=1)
x_whole=data.iloc[:,:-1]
y_whole=data.iloc[:,-1]