当前位置：首页 > news >正文

机器学习基本概念2

news 2025/7/20 2:59:16

资料来源：

https://www.youtube.com/watch?v=Ye018rCVvOo&list=PLJV_el3uVTsMhtt7_Y6sgTHGHp1Vb2P2J&index=1

https://www.youtube.com/watch?v=bHcJCp2Fyxs&list=PLJV_el3uVTsMhtt7_Y6sgTHGHp1Vb2P2J&index=2

分三步

1、定义function

b和w是需要透过知识去获取的，是未知的

做机器学习，需要Domain Knowledge，这些知识就是用来解b和w

这里的函式，就叫做Model

我们知道2月25号的人数是多少，就叫feauture

2、定义Loss

Loss is a function of parameters

真实的值叫Label（正确的数值）

可以算出来最近3年的误差，把所有的误差加起来，算出来一个L，这就是我们的Loss，值越大，说明越不好

MAE和MSE的区别和选择具体而定，还有Cross-entropy

真实的后台统计数据例子

越偏红色，代表Loss越大，偏蓝色，Loss越小，那在预测的时候，w为0.75 b代500，可能预测会更准

3、最佳化算法

做法： Gradient Descent

如何做：当w不同的值时，会得到不同的Loss，

怎么找到w，让Loss最小，随机选取初始化的点 w0（有一些方法可以更科学的找到这个值）

计算w对l的微积分，计算error surface的斜率，如果这个斜率的值为负数，

把w的值变大，Loss就会小

跨步要多大呢？

斜率大，就跨大

学习速率是自己设定的

Loss的值为什么会是负数？

因为这个函数是自己定义的，Loss的定义的估算的值和实际的值的绝对值，如果根据刚刚的定义，不可能为负数

但上面的这个例子不是真实的案例，error surface 可能是任何形状

hyperparameter，自己设定的

什么时候会停止下来？一般两种情况

a、前期设定了这个参数，例如次数

b、达到了理想的状态

Gradient Descent上面找不到最佳的loss值，因为随机的位置不一样

Local minima是个假的问题，具体为什么，后面会讲

两个参数，如何做上面的Graddient Descent？

例子

课程总结：

这三个步骤合并起来，叫做训练

2021年的误差还是比较大的，怎么做的更好？分析下数据

蓝色线相当于把红色右移了一天而已，每隔7天就是一个循环

这个model是一个比较坏的，我们可以拿7天的周期来进行修改

x叫做feature

上面的叫做Linear Model，我们后面看下怎么把Linear Model做的更好

Linear Model 太过简单了

我们需要写出更复杂，更多未知参数的function

1除以1+Exponential-b+wx1，再乘以constant常数

当b+wx1趋向于无穷大的时候，会发生什么事呢，Exponential会消失，当X1非常大的时候，这一条线会收敛在高度是C的地方

当b+wx1趋向于负的无穷大，分母会非常大，Y的值会趋近于0

S型的function，叫做sigmoid

我们需要各式各样合适蓝色的function，那这个蓝色function怎么出来呢，需要调整b和w

改w，会改变斜率，斜坡的坡度

修改b呢，会左右移动

修改c，会改变高度

可以制造出不同

把0和1和2和3都加起来

summation，b是constant

假设b,c,w是未知参数，有弹性，有未知参数的函式

Transpose

X输入，我们的Feature是X这个向量，X乘上矩阵W加上向量b，得到向量r，再把向量r，通过Sigmooid Function得到向量a，

再把向量a跟乘上c的Transpose加上b，就得到了y

不同的表示方式，上面是图示化的方式，下面是线性代数的表示方式

在参数小的情况下，穷举所有的可能就行，不需要使用Gradient Descent

Sigmoid 可以有多个，会产生越多线段的 Piecewise Linear的function，你就可以逼近越复杂的function

至于需要几个Sigmoid，这是另外的Hyper Parameter，这个自己决定

Loss function

Update和Epoch是不一样的东西

每次更新一次参数叫做一次update，把所有的Batch都看过一遍，叫做一个Epoch

为什么要分成一个一个的batch？

激活函数

哪种比较好？？ Relu好一些

我们还可以继续改我们的模型

我们可以把重复的事情，反复的再多做几次，这里的几次，又是另外一个超参数

模型也需要一个好的名字

这个是在模拟人脑

Deep Learning的由来。。。。

只要有足够多的ReLU或者Sigmoid，就能够逼近任何连续的Function

反复用的意义在哪里？

过多的层数效果不一定好

神经网络结构那部分讲的太精彩了。从简单的线性回归开始，到用几个简单线性函数去逼近一个分段线性函数，然后提出用sigmooid和线性逼近曲线，然后自然而然引出神经网络的基本结构。输入特征，参数，激活函数..等等概念自然而然都出来了

http://www.lryc.cn/news/256882.html

相关文章：

Spring Cloud 与微服务学习总结（19）—— Spring Cloud Alibaba 之 Nacos 2.3.0 史上最大更新版本发布

利用Node.js和cpolar实现远程访问，无需公网IP和路由器设置的完美解决方案

C++如何通过调用ffmpeg接口对H264文件进行编码和解码

使用MetaMask + Ganache搭建本地私有网络并实现合约部署与互动

目标检测、目标跟踪、重识别

高防IP防御效果怎么样，和VPN有区别吗

探秘MSSQL存储过程：功能、用法及实战案例

我们常说的流应用到底是什么？

ELK 日志解决方案

本项目基于Spring boot的AMQP模块，整合流行的开源消息队列中间件rabbitMQ,实现一个向rabbitMQ

freeswitch webrtc video_demo客户端进行MCU的视频会议

【鸿蒙学习网络】

MySQL系列（一）：索引篇

Flink Flink数据写入Kafka

《论文阅读》用于情绪回复生成的情绪正则化条件变分自动编码器 Affective Computing 2021

Pytorch CIFAR10图像分类 Swin Transformer篇

【vim】常用操作

oracle、误操作删除数据库数据恢复。

【Angular开发】Angular在2023年之前不是很好

记录 | 报错：libssl-dev : 依赖: libssl3 (= 3.0.8-1ubuntu1.1) 但是 3.0.8-1ubuntu1.2 正要被安装

MySQL联合查询、最左匹配、范围查询导致失效

服务器感染了.locked、.locked1勒索病毒，如何确保数据文件完整恢复？

【Linux系统化学习】命令行参数 | 环境变量的再次理解

【STM32】TIM定时器编码器

力扣44题通配符匹配题解

windows系统安装RocketMQ_dashboard

ATECLOUD电源自动测试系统打破传统助力新能源汽车电源测试

如何教会小白使用淘宝API接口获取商品数据