当前位置: 首页 > news >正文

数据挖掘——回归算法

数据挖掘——回归算法

  • 回归算法
    • 线性回归
    • 最小二乘法
    • 优化求解——梯度下降法
    • 逻辑回归
      • 逻辑回归函数
      • 逻辑回归参数估计
      • 逻辑回归正则化
    • 决策树回归
    • 小结

回归算法

回归分析

如果把其中的一些因素(房屋面积)作为自变量,而另一些随自变量的变化而变化的变量作为因变量(房价),研究他们之间的非确定映射关系,这种分析就称为回归分析

回归分析是研究一个或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。

回归和分类的区别:

分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。

线性回归

线性回归假设特征和响应满足线性关系

一元线性回归问题函数关系可表示
y = a + b x y=a+bx y=a+bx

  • 根据上式,在确定a、b的情况下,给定一个x值,我们就能够得到一个确定的y值,然而根据上式得到的y值与实际的y值存在一个误差
  • a、b为参数(parameters)、或称回归系数(regression coefficients)

采用什么样的线性关系误差刻画更好呢?

最小二乘法

基本思想:保证直线与所有点接近
详细做法:
若有n个样本点: ( x 1 , y 1 ) , … , ( x n , y n ) (x_1,y_1),… ,(x_n,y_n) x1y1,,xnyn,可以用下面的表达式来刻画这些
点与直线y=a+bx的接近程度:
[ y 1 − ( a + b x 1 ) ] 2 + . . . + [ y n − ( a + b x n ) ] 2 [y_1-(a+bx_1)]^2+...+[y_n-(a+bx_n)]^2 [y1(a+bx1)]2+...+[yn(a+bxn)]2
使上式达到最小值的直线y=a+bx就是所求的直线,这种方法称为最小二乘法。

对a和b求偏导数,可以得到:
b = x 1 y 1 + . . . + x n y n − n x ˉ y ˉ x 1 2 + . . . + x n 2 − n x ˉ 2 , a = y ˉ − b x ˉ b=\frac{x_1y_1+...+x_ny_n-n\bar x\bar y}{x_1^2+...+x_n^2-n\bar x^2},a=\bar y-b\bar x b=x12+...+xn2nxˉ2x1y1+...+xnynnxˉyˉ,a=yˉbxˉ
在这里插入图片描述

优化求解——梯度下降法

基本思想

  • 向着梯度的反方向调整
  • 步长不能太大,也不能太小

在这里插入图片描述

逻辑回归

逻辑回归函数

f ( x ) = e x 1 + e x f(x)=\frac{e^x}{1+e^{x}} f(x)=1+exex,值域为[0,1]
在这里插入图片描述
在这里插入图片描述

逻辑回归参数估计

在这里插入图片描述
使用梯度下降方法,迭代求解参数

逻辑回归正则化

在这里插入图片描述
W在数值上越小越好,这样越能抵抗数据的扰动
在这里插入图片描述
L1倾向于使得w要么取1,要么取0稀疏编码
L2倾向于使得w整体偏小(岭回归)

L1适合挑选特征
L2也称为岭回归,有很强的概率意义
在这里插入图片描述

决策树回归

决策树是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二, 这样使得每一个叶子节点都是在空间中的一个不相交的区域,在进行决策的时候,会根据输入样本每一维feature的值,一步一步往下,最后使得样本落入N个区域中的一个(假设有N个叶子节点),如下图所示。
在这里插入图片描述
既然是决策树,那么必然会存在以下两个核心问题:如何选择划分点?如何决定叶节点的输出值?——决策树分类选择划分点,使得信息增益最大,叶节点输出即类别
一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。分类树中采用信息增益等方法,通过计算选择最佳划分点。而在回归树中,采用的是启发式的方法

小结

在这里插入图片描述

http://www.lryc.cn/news/514156.html

相关文章:

  • AIGC与未来的通用人工智能(AGI):从生成内容到智能革命
  • jQuery学习笔记3
  • SpringMVC(六)拦截器
  • 单区域OSPF配置实验
  • Linux上vi(vim)编辑器使用教程
  • 虚拟机图像界面打不开了
  • 《经典力学》笔记
  • 【论文+源码】基于Spring和Spring MVC的汉服文化宣传网站
  • 计算机的错误计算(一百九十九)
  • 【AI日记】25.01.02 kaggle 比赛 3-1
  • el-pagination 为什么只能展示 10 条数据(element-ui@2.15.13)
  • Ps:将数据组作为文件导出
  • nohup.out日志
  • 01 背包
  • QT-------------多线程
  • 【JVM】深入了解Java虚拟机-------内存划分、类加载机制、垃圾回收机制
  • k8s部署juicefs
  • 【ArcGIS微课1000例】0136:制作千层饼(DEM、影像、等高线、山体阴影图层)
  • Ajax数据爬取
  • 快速上手大模型的对话生成
  • DateTimeExtensions:一个轻量C#的开源DateTime扩展方法库
  • 题解:监控屏幕调整问题
  • C语言----指针
  • 树莓派之旅-在wsl-x86-64 上进行树莓派的交叉编译
  • nature reviews genetics | 需要更多的针对不同种族的癌症基因组图谱研究,促进精准治疗和维护治疗公平权益
  • 代码随想录算法训练营day18
  • Kafka安全优化文档:漏洞修复到安全加固
  • Markdown如何添加任务列表-复选框的添加
  • 基于下垂控制的构网变换器功率控制【微电网变流器】【Simulink】
  • AI定义汽车/跨域融合/整车智能,汽车智能化2.0时代新机会来了