当前位置: 首页 > news >正文

第L2周:机器学习-线性回归

  • 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
  • 🍖 原作者:K同学啊

目标

  1. 学习简单线性回归模型和多元线性回归模型
  2. 通过代码实现:通过鸢尾花花瓣长度预测花瓣宽度
    具体实现
    (一)环境
    语言环境:Python 3.10
    编 译 器: PyCharm
    框 架:scikit-learn
    (二)具体步骤:
    造个数据集,内容格式如下:
    image.png
    导入库
import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt

简单线性回归

# 加载数据
dataset = pd.read_csv('./studentscores.csv')  
print(dataset)

image.png

# 取第一列Hours的值
X = dataset.iloc[:, :1].values  
print(X)

image.png

# 取第二列Scores的值
Y = dataset.iloc[:, 1].values  
print(Y)

image.png
很好奇,看看X,Y的形状:

print(X.shape)
print(Y.shape)

image.png
看来两者是一样的形状和大小 。继续:

# 切分一下数据集,75%用来训练,25%用来测试
from sklearn.model_selection import  train_test_split  
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,  test_size=1/4,  random_state=0)

检验一下切分的成果:

print(X_train, X_train.shape)

image.png

print(Y_train, Y_train.shape)

image.png

print(X_test, X_test.shape)
print(Y_test, Y_test.shape)

image.png
做简单线性回归

# 简单线性回归  
from sklearn.linear_model import LinearRegression  regressor = LinearRegression()  
regressor = regressor.fit(X_train, Y_train)# 预测一下结果  
Y_pred = regressor.predict(X_test)  print(Y_pred, Y_pred.shape)

image.png
这个预测结果和上面的Y_test比较一下,可以看到两者之间的差距以及相似性。我们进行可视化直观看看:

# 训练集可视化  
plt.scatter(X_train, Y_train, color='red')  
plt.plot(X_train, regressor.predict(X_train), color='blue')  
plt.show()

**image.png

# 测试集预测结果可视化  
plt.scatter(X_test, Y_test, color='red')  
plt.plot(X_test, regressor.predict(X_test), color='blue')  
plt.show()

image.png
红点是实际分布,蓝色线是预测趋势线。两者是趋于一致的,预测的偏离并不大。
注:plt.scatter()绘制散点图,plt.plot()绘制折线图。

下面看看多元线性回归,通过鸢尾花花瓣长度预测花瓣宽度

  1. 导入数据集
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'  
names = ['花萼-length', '花萼-width', '花瓣-length', '花瓣-width', 'class']  
dataset = pd.read_csv(url, names=names)  
print(dataset)

image.png
2. 分析一下数据

plt.plot(dataset['花萼-length'], dataset['花瓣-width'], 'x', label="marker='x'")  
plt.plot(dataset['花萼-width'], dataset['花瓣-width'], 'o', label="marker='o'")  
plt.plot(dataset['花瓣-length'], dataset['花瓣-width'], 'v', label="marker='v'")  
plt.legend(numpoints=1)  
plt.show()

image.png
3. 取数据

# 取[花萼-width : 花瓣-length]
X = dataset.iloc[:, [1, 2]].values  
print(X, X.shape)

image.png
image.png

Y = dataset.iloc[:, 3].values  # 取花瓣-width值  
print(Y, Y.shape)

image.png
3. 将dataset切分成训练数据集和测试数据集

from sklearn.model_selection import train_test_split  
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,  test_size=0.2,  random_state=0)
  1. 训练多元线性回归模型
from sklearn.linear_model import LinearRegression  
regressor = LinearRegression()  
regressor.fit(X_train, Y_train)
  1. 在测试集上预测结果
y_pred = regressor.predict(X_test)  
print(y_pred)

image.png
6. 把测试集预测结果可视化

plt.scatter(Y_test, y_pred, color='red')  
plt.plot(Y_test, Y_test, color='blue') # 假设预测100%正确,那么走势是蓝线
plt.plot(Y_test)
plt.xlabel("True")  
plt.ylabel("Prediction")  
plt.show()

image.png

http://www.lryc.cn/news/431578.html

相关文章:

  • SpringMVC拦截器深度解析与实战
  • 直线上最多的点数
  • 经济管理专业数据库介绍
  • 【C++ Primer Plus习题】11.1
  • [数据库][oracle]ORACLE EXP/IMP的使用详解
  • 中国各银行流动性比例数据(2000-2022年)
  • MACOS安装配置前端开发环境
  • Docker 配置国内镜像源
  • AI模块在人工智能中扮演着什么样的角色
  • VM Workstation虚拟机AlmaLinux 9.4操作系统安装(桌面版安装详细教程)(宝塔面板的安装),填补CentOS终止支持维护的空白
  • 【学习笔记】卫星通信NTN 3GPP标准化进展分析(三)- 3GPP Release17 内容
  • 【SQL】常见语句合集
  • Cozer必备!一站式解锁扣子全网最全插件集锦(三)
  • 1-2宿主环境
  • Java进阶13讲__第九讲
  • 上海市计算机学会竞赛平台2024年8月月赛丙组等差数列的素性
  • VR虚拟展厅的应用场景有哪些?
  • Go 语言版本管理——Goenv
  • C#中的各种画刷, PathGradientBrush、线性渐变(LinearGradientBrush)和径向渐变的区别
  • 如何在Mac中修改pip的镜像源
  • MySQL你必须知道的事
  • Ceph RBD使用
  • Spark MLlib模型训练—回归算法 Random forest regression
  • 华为OD机试真题-数大雁-2024年OD统一考试(E卷)
  • Oracle数据迁移:导出与导入的详细指南
  • SpringBoot实现前后端传输加密设计
  • X 射线测厚仪-高效精准,厚度测量的卓越之选
  • 10款好用的文件加密软件排行榜|文件加密管理软件推荐(合集篇)
  • 服务器蓝屏该怎么办
  • Elasticsearch:使用 inference API 进行语义搜索