当前位置：首页 > news >正文

一文学会sklearn中的交叉验证方法，cross_validate和KFlod实战案例

news 2025/8/11 23:03:04

前言

在机器学习中，我们经常需要评估模型的性能。而为了准确评估模型的性能，我们需要使用一种有效的评估方法。五折交叉验证（5-fold cross-validation）就是其中一种常用的模型评估方法，用于评估机器学习模型的性能和泛化能力。

在本文中，我们将介绍五折交叉验证的原理和实现方法，并探讨其在模型评估中的重要性。

sklearn实现交叉验证

数据集使用sklearn中常见的多分类数据，iris数据集。以下是导入库和数据的示例代码：

from sklearn import svm, datasets
from sklearn.model_selection import cross_val_score,cross_validate# iris数据
X, y = datasets.load_iris(return_X_y=True)# 设置参数搜索范围
param_grid = [{'kernel': ['linear', 'poly', 'rbf'], 'C': [0.1, 1.0, 10.0]},
]# 进行网格搜索
grid_search = GridSearchCV(SVR(), param_grid, cv=5)
grid_search.fit(X, y)
best_params = grid_search.best_params_
print(best_params)
# {'C': 10.0, 'kernel': 'rbf'}clf = SVR(kernel="rbf",C=10)

在上面代码中，我们使用iris数据集，对SVR模型进行网格搜索，找到合适的参数：{'C': 10.0, 'kernel': 'rbf'}
接下来我们在使用五折交叉验证对模型进行进一步评估。

第一种方法

使用cross_validate()方法进行验证，以下是示例代码：

# 多分类模型的评估指标
# 多分类模型的
scoring = ["f1_macro","precision_macro","recall_macro"]cross_validate(clf, X, y, cv=5, scoring=scoring)

代码运行结果如下：

{'fit_time': array([0.00298905, 0.00498605, 0.00598025, 0.00199437, 0.0079782 ]),'score_time': array([0.00499058, 0.00897241, 0.00701547, 0.01296639, 0.01496029]),'test_f1_macro': array([0.96658312, 0.96658312, 0.96658312, 0.93333333, 1.        ]),'test_precision_macro': array([0.96969697, 0.96969697, 0.96969697, 0.93333333, 1.        ]),'test_recall_macro': array([0.96666667, 0.96666667, 0.96666667, 0.93333333, 1.        ])}

fit_time：模型训练时间
score_time：模型评估指标计算时间
test_f1_macro：- test_precision_macro：验证指标的test_f1_macro分数结果
test_precision_macro：验证指标的precision_macro分数结果
test_recall_macro：验证指标的recall_macro分数结果

第二种方法

使用KFlod和StratifiedKFold方法对数据进行交叉验证，两者的主要区别是，KFold是随机划分，对类别不均衡的数据，可能出现全是0标签，或者全是1标签的数据集。StratifiedKFold使用的是分层抽样，若数据集有4个类别，比例是2:3:3:2，则划分后的样本比例约是2:3:3:2。避免随机划分数据集出现的偶然性。

以下是用KFlod和StratifiedKFold方法对数据进行交叉验证的示例代码：

result = {'test_f1_macro':[],'test_precision_macro':[],'test_recall_macro':[]
}
for train, test in kfolder.split(X,y):X_train, X_test = X[train], X[test]y_train, y_test = y[train], y[test]
#      # 训练模型clf = clf.fit(X_train, y_train)# 在训练集上进行预测并计算R2和RMSEy_pred = clf.predict(X_test)f1 = f1_score( y_test, y_pred, average='macro' )p = precision_score(y_test, y_pred, average='macro')r = recall_score(y_test, y_pred, average='macro')result["test_f1_macro"].append(round(f1,2))result["test_precision_macro"].append(round(p,2))result["test_recall_macro"].append(round(r,2))
print(result)

代码运行结果如下：

{'test_f1_macro': [0.96, 0.97, 0.97, 0.97, 0.96],'test_precision_macro': [0.96, 0.97, 0.97, 0.97, 0.97],'test_recall_macro': [0.97, 0.97, 0.97, 0.97, 0.96]}