当前位置：首页 > news >正文

【Python机器学习】模型评估与改进——打乱划分交叉验证

news 2025/8/12 7:34:01

打乱划分交叉验证是一种非常灵活的交叉验证策略。

在打乱划分交叉验证中，每次划分为训练集取样train_size个点，为测试集取样test_size个不相交的点。将这一划分方法重复n_iter次。

举例：

import matplotlib.pyplot as plt
import mglearnmglearn.plots.plot_shuffle_split()
plt.show()

上图为对包含10个点的数据集进行4次迭代划分，每次的训练集包含5个点，测试集包含2个点（可以将train_size和test_size设为整数来表示这两个集合的绝对大小，也可以设为浮点数来表示占整个数据集的比例）

下面的例子是将数据集划分为50%的训练集和50%的测试集，共运行10次迭代：

from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import ShuffleSplitshuffle_split=ShuffleSplit(test_size=.5,train_size=.5,n_splits=10)
iris=load_iris()
logreg=LogisticRegression()
scores=cross_val_score(logreg,iris.data,iris.target,cv=shuffle_split)print('Cross-validation score:\n{}'.format(cross_val_score(logreg,iris.data,iris.target,cv=shuffle_split)))

打乱划分交叉验证可以在训练集和测试集大小之外独立控制迭代次数，这有时是很有帮助的。它还允许在每次迭代中仅使用部分数据，这可以通过设置train_size与test_size之和不等于1来实现。

用这种方法对数据进行二次采样可能对大型数据上的试验很有用。

http://www.lryc.cn/news/393449.html

相关文章：

nodejs操作excel文件实例，读取sheets, 设置cell颜色

用GPT做足球预测案例分享

代码随想录| 编辑距离

MOJO编程语言的编译与执行：深入编译器与解释器的工作原理

nginx-限制客户端并发数

Vatee万腾平台：智能生活的新选择

白嫖A100-interLM大模型部署试用活动，亲测有效-2.Git

LeetCode 60.排序排列（dfs暴力）

矩阵分析与应用1-矩阵代数基础

Vue的学习之生命周期

【MySQL】表的操作{创建/查看/修改/删除}

基于Python爬虫的城市二手房数据分析可视化

这款新的 AI 语音助手击败了 OpenAI，成为 ChatGPT 最受期待的功能之一

CTS单测某个模块和测试项

pytorch、pytorch_lightning、torchmetrics版本对应

麒麟系统部署JeecgBoot

要想贵人相助，首先自己得先成为贵人！

使用块的网络 VGG

微信小程序性能与体验优化

Android14之获取包名/类名/服务名(二百二十三)

FreeU: Free Lunch in Diffusion U-Net——【代码复现】

第三方商城对接重构（HF202407）

如何在Windows 11上复制文件和文件夹路径？这里提供几种方法

大数据Spark 面经

绝区叁--如何在移动设备上本地运行LLM

Interview preparation--Https 工作流程

集成学习（三）GBDT 梯度提升树

后端工作之一：CrapApi —— API接口管理系统部署

20240706 xenomai系统中网口（m2/minipcie I210网卡）的实时驱动更换

模型训练之数据集