当前位置: 首页 > news >正文

python线性回归:从原理到实战应用

线性回归背景介绍

        首先举个例子来引入线性回归,例如一家银行的贷款业务,他会根据每个去贷款人的信息来判断到底借给多少钱。例如

这个时候我们可以看出来额度是跟前两个特征有关的,我们可以想象到银行肯定有一套规则,或者说有一个线性回归曲线,根据前两个特征然后给出你可以贷款多少钱。那么现在我们不知道,我们能不能通过现有的几个数据来推出来这个线性回归曲线呢?下面我们就来学习关于线性回归的原理和应用吧。

线性回归原理

        引出线性表达式

还以上面的数据为例,那么多数据我们能不能通过一条线来进行拟合。有多个参数,我们引入多个x

所以引入函数                

我们也可以写成                    

此时的x0=1,这样我们就可以把表达式写成 

                                ​​​​​​​        ​​​​​​​        ​​​​​​​

此时        

为什么要这样引入

1  在导入特征值时,数据一般是以列形式展现的,所以我们要将W的列形式转化为行向量,然后结果为一个一维的行矩阵

2 为什么要转化为矩阵来计算,因为矩阵可以并发计算,计算速度很快。

个人推导

 

 

损失值计算

其实在我们计算时,所有点并不是完全在线上的,是有误差的,所有我们应该这样写

         ​​​​​​​        ​​​​​​​        ​​​​​​​        

这里y表示真实值,后半式子表示预测值,L表示误差项(真实值与预测值之间的差值),这里误差项是符合高斯分布的

 然后得出

然后我们求 θ的似然函数

然后我们进行计算。先取对数

        极大似然估计是要求出L ( θ )  的最大值,此处也就是求出J ( θ )的最小值。J ( θ ) 也是用优化方法求解线性回归问题的损失函数。        

最小二乘法

即求出上式中J ( θ ) J(\theta)J(θ)的最小值。
我们将M MM个N NN维样本组成矩阵X XX,

X XX的每一行对应一个样本,一共M MM行。
X XX的每一列对应样本的一个维度,加上一个值恒为1的维度,一共N + 1 N + 1N+1列。
这个额外的维度值恒为1,通常用于线性模型中的截距项,也就是说,每个样本都有一个额外的特征,其值为1。
具体形式如下:

 

梯度下降法

 从上面我们可以得出损失函数J ( θ ) J(\theta)J(θ)是一个凸函数,所以我们也可以用梯度下降算法来求得极值。

    梯度下降算法的目标是调整参数 θ \thetaθ 以最小化损失函数J ( θ ) J(\theta)J(θ)。梯度下降法通过计算损失函数相对于参数 θ \thetaθ 的梯度,并更新参数以减少误差。梯度是一个向量,其元素是损失函数对每个参数的偏导数。线性回归的梯度可以表示为:

        ​​​​​​​        ​​​​​​​        ​​​​​​​        

 

代码部分

上面不懂也不影响我们写代码,我们只要知道要处理什么类型问题就好了。

例如我们来写一个简单线性回归代码

数据是这些,我们来预测体重75,年龄23的血压收缩

import pandas as pd
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
data=pd.read_csv(r'多元线性回归.csv',encoding='gbk')
# print(data.head())
# 体重,年龄,血压收缩
X=data[['体重','年龄']]
y=data[['血压收缩']]model=LinearRegression()
model.fit(X,y)
result1=model.score(X,y)
print(result1)
a=model.coef_
b=model.intercept_
# print(a,b)
print('预测函数y={:.2f}x1+{:.2f}x2+{:.2f}'.format(a[0][0],a[0][1],b[0]))c=model.predict([[75,23]])
print(c)

 输出

第一个为得分情况,第二个为预测的函数,第三个为我们的问题体重75,年龄23的血压收缩结果。

http://www.lryc.cn/news/604051.html

相关文章:

  • 负载均衡、算法/策略
  • 【iOS】类扩展与关联对象
  • 深入解析RocksDB的MVCC和LSM Tree level
  • Vulnhub-NAPPING: 1.0.1靶机
  • 汉得班翎流程平台V1.20.0正式发布:AI智慧赋能,集成效率跃升!
  • ZKmall开源商城架构工具链:Docker、k8s 部署与管理技巧
  • 基于三台主机搭建 Web 服务环境:Nginx、NFS 与 DNS 配置全流程
  • 机械学习--线性回归---三个小案例
  • Kun_Tools(全能文档工具)V0.4.6 便携版
  • 2025年中科院与JCR期刊分区深度对比(第一期):TON中科院分区3区不变,JCR分区升至Q1;TOSEM重回中科院1区!
  • I2C 与 SMBus:同根同源,各有千秋
  • 学习Python中Selenium模块的基本用法(3:下载浏览器驱动续)
  • 美国股市高频tick级分时交易数据解码与订单簿及交易指令分析
  • 使用 Spring AI Alibaba MCP 结合 Nacos 实现企业级智能体应用
  • win10 环境删除文件提示文件被使用无法删除怎么办?
  • Aura_P41_PXX GameplayEffect
  • iOS仿写 —— 计算器
  • Python包架构设计与模式应用:构建可扩展的企业级组件
  • 车载诊断架构 --- 关于诊断时间参数P4的浅析
  • ABP VNext + GraphQL Federation:跨微服务联合 Schema 分层
  • 落霞归雁思维框架应用(十一) ——开发如何选语言与架构:把“技术洪流”修成顺势河道
  • 【Mac版】Linux 入门命令行快捷键+联想记忆
  • Doris中文检索效果调优
  • vulhub-Breakout靶机
  • 减速机:自动化生产线的“精密传动心脏”
  • 网络原理--HTTPHTTPS
  • SQL注入SQLi-LABS 靶场less26-30详细通关攻略
  • OpenCV 学习探秘之三:从图像读取到特征识别,再到机器学习等函数接口的全面实战应用与解析
  • 【硬件-笔试面试题】硬件/电子工程师,笔试面试题-44,(知识点:三极管,PN结,正偏反偏判断,晶体管)
  • 通讯中为什么要用 0Hermitian 对称 *只使用“正频率”子载波,负频率部分通过对称性自动生成,从而保证时域信号是实值