当前位置: 首页 > news >正文

李宏毅深度学习01——基本概念简介

视频链接

基本概念

Regression(回归):
类似于填空

Classification(分类):
类似于选择

Structure Learning(机器学习):
??

机器学习找对应函数的步骤

1、写出一个带有未知参数的函数

Model(模型):一个函数,比如y = b + w * x1(y是要预测的,x1是已知的)

weight(权重):上述中的w就是权重

bias(偏移):上述中的b就是偏移

2、定义训练数据的损失函数

loss(损失函数):一个函数,输入是模型中的参数 L(b, w),输出的值代表这组b,w好还是不好,值越大,代表b,w越不好

MAE(mean absolute error): 均值绝对误差

MSE(mean square error): 均值方差

Cross-entropy:如果预测值和实际值都是随机分布的,则使用这种方式查看损失值
在这里插入图片描述

label(真实值):真实的值,类似于训练数据

Error surface(误差面):等高线图
在这里插入图片描述

3、Optimization(优化)

找一个w和b,使得Loss结果最小

Gradient Descent(梯度下降)

在这里插入图片描述
在这里插入图片描述

Learning rate:学习速率 n
hyper parameters:超参数 自己设定
在这里插入图片描述

local minima局部最优

global minima全局最优

梯度下降有个问题就是容易导致局部最优?其实局部最优是一个假问题!
在这里插入图片描述
上述说的只是一个参数的情况,实际上多个参数也是一样的做法
在这里插入图片描述
在这里插入图片描述

由线性模型推广至非线性模型

前面的步骤统称训练,实际上都是基于已知数据进行的,我们的目的是要通过这个式子预测新的数据

在这里插入图片描述
在这里插入图片描述
为此,我们应该修改模型,以7天为一个周期来预测

linear models:线性模型,下面如图,就是考虑不同周期对应的线性模型
在这里插入图片描述
model bias:模型偏移
与之前说的bias不一样,这里说的是模型本身的限制导致没办法模拟真实的情况
在这里插入图片描述
所以我们需要一个更复杂的有未知参数的函数来替代线性模型

piecewise linear curves:分段线性曲线
在这里插入图片描述
这里面哪怕红色线不是线性的,而是曲线的,我们也可以通过微分的方式,选取足够多的点将其看成是线性的

在这里插入图片描述
那蓝色线的函数该怎么写出来呢,有一个很出名的函数叫做sigmoid,虽然是曲线,但是很接近蓝色线

sigmoid:S型线段对应的函数

在这里插入图片描述
而蓝色线的函数我们一般将其称作hard sigmoid

通过调整c、b、w这三个值,我们可以得到不同的sigmoid函数,从而逼近不同的蓝色线
在这里插入图片描述
所以上述的红色线可以通过以下公式逼近:
在这里插入图片描述

单个特征推广至多个特征

在这里插入图片描述

改写机器学习的每一步

1、函数式子转矩阵

上述多个特征的式子可以转成用矩阵的方式表示

在这里插入图片描述

在这里插入图片描述
上述已经知道r表示什么,再用a表示sigmoid®
在这里插入图片描述
所以最终式子y可以转成向量的表示方式如下所示
在这里插入图片描述

总结:
transpose:矩阵转置

在这里插入图片描述

在这里插入图片描述
重新定义一下未知参数
在这里插入图片描述

2、重定义Loss函数

在这里插入图片描述

在这里插入图片描述

3、优化

在这里插入图片描述

优化步骤没什么区别,还是用梯度下降,唯一就是参数变了,本质上还是前面w,b两个参数的时候情况是一样的

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
为什么要分一个个Batch?
下次课解释

数据、BatchSize、epoch、update之间的关系如下:
在这里插入图片描述

拓展——模型变型

模型不一定是要用sigmoid,也可以用其他的模型,比如ReLu

在这里插入图片描述
在这里插入图片描述
上述函数统称为激活函数(activation function)

神经网络 OR 深度学习

Neuron:神经元
Neuron Network:神经网络在这里插入图片描述

由于这个名字被搞臭了,所以换了个名字
layer:层
Deep Learning:深度学习
本质上是一个东西
在这里插入图片描述
为什么不把network变胖,而是将其变深???

过拟合

over fitting
在这里插入图片描述

http://www.lryc.cn/news/371700.html

相关文章:

  • TcpClient 服务器、客户端连接
  • 13大最佳工程项目管理系统软件盘点
  • SpringMVC:拦截器(Interceptor)
  • 【Python】selenium使用find_element时解决【NoSuchWindowException】问题的方法
  • PTA:7-188 水仙花数
  • HTML静态网页成品作业(HTML+CSS+JS)—— 美食企业曹氏鸭脖介绍网页(4个页面)
  • SCI二区|鲸鱼优化算法(WOA)原理及实现【附完整Matlab代码】
  • 人脸匹配——OpenCV
  • 韩顺平0基础学java——第22天
  • 神经网络介绍及教程案例
  • 16个不为人知的资源网站,强烈建议收藏!
  • pandas获取某列最大值的所有数据
  • App UI 风格展现非凡创意
  • rocketmq-5.1.2的dleger高可用集群部署
  • 无线网络与物联网技术[1]之近距离无线通信技术
  • Codeforces Round 952 (Div. 4)
  • spark MLlib (DataFrame-based) 中的聚类算法Bisecting K-Means、K-Means、Gaussian Mixture
  • 天降流量于雀巢?元老品牌如何创新营销策略焕新生
  • 新疆在线测宽仪配套软件实现的9大功能!
  • 考研计组chap3存储系统
  • 杨氏矩阵和杨辉三角的空间复杂度较小的解题思路
  • 【第六篇】SpringSecurity的权限管理
  • 未来工作场所:数字化转型的无限可能
  • Landsat8的质量评估波段的一个应用
  • OpenZeppelin Ownable合约 怎么使用
  • vue3框架基本使用(基础指令)
  • ubuntu20.04设置共享文件夹
  • 三十五、 欧盟是如何对法律政策环境进行评估的?
  • 项目实战--文档搜索引擎
  • 计算机视觉基础课程知识点总结