当前位置: 首页 > news >正文

第L2周:机器学习|线性回归模型 LinearRegression:1. 简单线性回归模型

  • 本文为🔗365天深度学习训练营 中的学习记录博客
  • 原作者:K同学啊

任务:
●1. 通过本文学习LinearRegression简单线形回归模型。
●2. 模仿本文代码,通过鸢尾花花瓣长度预测花瓣宽度。

一、概念

  1. 什么是回归

回归的目的是为了预测,比如在通过鸢尾花花瓣长度预测花瓣宽度。

回归之所以能预测,是因为它通过大量的花瓣长度与宽度数据,“弄懂了”花瓣长度与宽度之间的线性关系,在这个基础之上就可以通过花瓣长度预测花瓣宽度了。

  1. 什么是线性

线性就是关系可以用线性方程来表示,通过一个或多个变量来表示另外一个变量。

通俗的说符合“越…,越…”这种说法的可能就是线性关系,比如

●“房子”越大,“租金”就越高。
●“汉堡”买的越多,花的“钱”就越多。
●杯子里的“水”越多,“重量”就越大。

但是也并非所有“越…,越…”都是线性的,比如“弹簧的弹力与位移的关系”。
在这里插入图片描述

  1. 什么是线性回归

通过两个或多个变量之间的线性关系来预测结果。

通过鸢尾花的花瓣长度与宽度的线性关系来预测花瓣宽度,通过杯子里水的体积就可以知道(预测)水的重量。

二、代码实现

我的环境:
●语言环境:Python3.9
●编译器:Jupyter Lab

这里我们采用“学习时长-成绩”数据集,采用LinearRegression简单线形回归模型,通过学习时长去预测学生成绩。

第1步:数据预处理

import pandas as pd
import numpy as np
import matplotlib.pyplot as pltdataset = pd.read_csv('./L2/studentscores.csv')
X = dataset.iloc[ : , :1].values
Y = dataset.iloc[ : ,1].valuesfrom sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=1/4, random_state=0)
dataset

代码输出:

HoursScores
02.521
15.147
23.227
38.575
43.530
51.520
69.288
75.560
88.381
92.725
107.785
115.962
124.541
133.342
141.117
158.995
162.530
171.924
186.167
197.469
202.730
214.854
223.835
236.976
247.886
259.193
269.293
279.593

train_test_split()函数详解:

train_test_split():将数据集划分为测试集与训练集。

●X:所要划分的整体数据的特征集;
●Y:所要划分的整体数据的结果;
●test_size:测试集数据量在整体数据量中的占比(可以理解为X_test与X的比值);
●random_state:
○①若不填或者填0,每次生成的数据都是随机,可能不一样。
○②若为整数,每次生成的数据都相同。

第2步:简单线性回归模型

sklearn.linear_model包实现了广义线性模型,包括线性回归、Ridge回归、Bayesian回归等。LinearRegression是其中较为简单的线性回归模型。

from sklearn.linear_model import LinearRegressionregressor = LinearRegression()
regressor = regressor.fit(X_train, Y_train)

第3步:预测结果

Y_pred = regressor.predict(X_test)
Y_pred

代码输出:

array([33.40062313, 39.26803909, 12.86466728, 20.68788856, 16.77627792,59.80399493, 78.38414546])

第4步:可视化

  1. 训练集可视化
plt.scatter(X_train, Y_train, color='red')
plt.plot(X_train, regressor.predict(X_train), color='blue')plt.show()

代码输出:
在这里插入图片描述

  1. 测试集预测结果可视化
plt.scatter(X_test, Y_test, color='red')
plt.plot(X_test, regressor.predict(X_test), color='blue')
plt.show()

代码输出:

在这里插入图片描述

三、鸢尾花数据集导入

这里的任务需要使用到的数据集,你可以这样导入:

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"  
names = ['花萼-length', '花萼-width', '花瓣-length', '花瓣-width', 'class'] dataset = pd.read_csv(url, names=names)
dataset

代码输出:

花萼-length花萼-width花瓣-length花瓣-widthclass
05.13.51.40.2Iris-setosa
14.93.01.40.2Iris-setosa
24.73.21.30.2Iris-setosa
34.63.11.50.2Iris-setosa
45.03.61.40.2Iris-setosa
..................
1456.73.05.22.3Iris-virginica
1466.32.55.01.9Iris-virginica
1476.53.05.22.0Iris-virginica
1486.23.45.42.3Iris-virginica
1495.93.05.11.8Iris-virginica

150 rows × 5 columns

http://www.lryc.cn/news/446467.html

相关文章:

  • 1.5 测试用例
  • P1101 单词方阵
  • 通过 OBD Demo 体验 OceanBase 4.3 社区版
  • 浅拷贝和深拷贝(Java 与 JavaScript)
  • 力扣每日一题 2306.公司命名
  • HTML-DOM模型
  • vue项目报错: At least one is required in a single file component.的主要原因及解决办法
  • 03DSP学习-利用syscfg配置IO
  • web - RequestResponse
  • 个人文章汇总
  • Java | Leetcode Java题解之第436题寻找右区间
  • 大模型智能体在金融公告理解领域的应用 | OPENAIGC开发者大赛高校组AI创新之星奖
  • 链表入门(LeetCode题目)
  • kibana开启访问登录认证
  • Java 14Java 15新特性概述
  • 流量特征随机ua修改
  • CSP-S 2024 提高级 第一轮(初赛) 阅读程序(3)
  • 如何在 Rust 中通过 Rumqttc 实现 MQTT 通信
  • 广东高校建设AIGC实验室时需要注意哪几个关键点?
  • 设计模式-PIMPL 模式
  • Docker部署MongoDB教程
  • 堆排序易错点
  • 安卓13长按电源按键直接关机 andriod13不显示关机对话框直接关机
  • React学习笔记(四)——React 组件生命周期
  • PHP的guzzlehttp/guzzle库在碰到各种异常时的场景
  • 多机部署,负载均衡-LoadBalance
  • Hadoop安装与配置
  • 一个自制的比较low的刷题软件
  • 【Java 集合】List接口 —— ArrayList 与 LinkedList 详解
  • 通信工程学习:什么是PNF物理网络功能