当前位置：首页 > news >正文

scikit-learn库学习之make_regression函数

news 2025/8/29 22:41:30

scikit-learn库学习之make_regression函数

一、简介

make_regression是scikit-learn库中用于生成回归问题数据集的函数。它主要用于创建合成的回归数据集，以便在算法的开发和测试中使用。

二、语法和参数

sklearn.datasets.make_regression(n_samples=100, n_features=100, *, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)

n_samples: int, 可选，样本数量，默认值为100。
n_features: int, 可选，特征数量，默认值为100。
n_informative: int, 可选，有用特征的数量，默认值为10。
n_targets: int, 可选，目标变量的数量，默认值为1。
bias: float, 可选，偏置项，默认值为0.0。
effective_rank: int 或 None, 可选，矩阵的有效秩（生成具有指定有效秩的低秩矩阵）。
tail_strength: float, 可选，稀疏奇异值分解的尾部强度，默认值为0.5。
noise: float, 可选，噪声的标准差，默认值为0.0。
shuffle: boolean, 可选，是否在生成样本后对其进行洗牌，默认值为True。
coef: boolean, 可选，如果为True，则返回线性模型的系数，默认值为False。
random_state: int, RandomState instance 或 None, 可选，随机数生成器的种子。

三、实例

3.1 生成具有默认参数的回归数据集

import numpy as np
from sklearn.datasets import make_regression# 生成回归数据集
X, y = make_regression()print("特征矩阵X:\n", X)
print("目标变量y:\n", y)

输出：

特征矩阵X:[[ 0.22149882 -0.06453352  0.12052486 ... -0.82411415  0.23856925-0.16168211][-0.20101287 -0.44072967 -1.14649484 ...  0.63646684 -0.425003860.4671914 ]...[ 0.90505363 -0.53703078  0.50773971 ...  1.14990328  0.05411115-0.08363001]]
目标变量y:[-144.31924045  181.62052712  -48.9289649  ...  235.29125152223.43232493  102.79266155]

3.2 生成带有噪声和偏置的回归数据集

import numpy as np
from sklearn.datasets import make_regression# 生成带有噪声和偏置的回归数据集
X, y = make_regression(noise=10.0, bias=100.0)print("特征矩阵X:\n", X)
print("目标变量y:\n", y)

输出：

特征矩阵X:[[ 1.24086241  0.00303736  1.17925455 ... -1.07069539  0.93889406-0.22232984][-0.74205332  0.65462794  0.14662052 ... -0.59564518  1.286698671.00484528]...[ 1.00952406 -0.34893754  0.04816599 ...  0.53224443  1.08944202-0.68298357]]
目标变量y:[  97.85236613   57.67386596  143.4882752  ...  -43.32816291-160.72606466  -91.79449558]

3.3 生成指定有效秩的回归数据集

import numpy as np
from sklearn.datasets import make_regression# 生成指定有效秩的回归数据集
X, y = make_regression(effective_rank=2)print("特征矩阵X:\n", X)
print("目标变量y:\n", y)

输出：

特征矩阵X:[[-0.13033419 -0.11927356 -0.1261044  ... -0.11075221 -0.09502064-0.15613214][-0.12111371 -0.1146456  -0.1225812  ... -0.10441777 -0.09032011-0.14703234]...[-0.13796815 -0.12383917 -0.13535568 ... -0.11880625 -0.10313284-0.17030849]]
目标变量y:[-123.66530542 -143.25411773 -127.83807546 ... -145.23413153-131.64245155 -124.93295103]