当前位置: 首页 > news >正文

机器学习和深度学习 -- 李宏毅(笔记与个人理解)Day 13

Day13 Error surface is rugged……

Tips for training :Adaptive Learning Rate

critical point is not the difficult

image-20240411203156248 image-20240411203302996

image-20240411203539343

image-20240411203702557 image-20240411205450104

Root mean Square --used in Adagrad

image-20240411205707534

这里为啥是前面的g的和而不是直接只除以当前呢?

这种方法的目的是防止学习率在训练过程中快速衰减。如果只用当前的梯度值来更新学习率,那么任何较大的梯度值都可能会导致很大的学习率变化,这可能会使得学习过程不稳定。通过使用所有过去梯度的平方的平均值,我们可以使学习率的变化更加平滑,因为这个值不会因为个别极端的梯度值而发生剧烈波动。

以及这个式子和之前讲的那个正则化是不是一样的呢?image-20240411205922799

啊!!!woc 我发现这两个是差不多的思想啊,你把上面那个正则化的东西用Gradient做出来
gi = 2xw+ ∑ \sum 2w…… 额……好吧完全不一样,但是我又不知道这个会不会对于我的……

废了,乱了;稳一稳哈

  1. 这里为什么不是让这个梯度直接等于0 呢?-- 或许是因为有的loss function 我们无法直接求出来梯度等于0 的w?哦哦 那我就知道了md 吓死,差点以为自己的machine Learning route ending了

image-20240411212536721

image-20240412182923450 image-20240412183150634

RMSProp

因为上一个方法只能解决 不同的 θ \theta θ 时候的学习率,但是由图我们可以知道有时候同一个参数我们也希望起有变化率的不同取值

image-20240412184406452

我怎么没看出来这种思想啊

image-20240412184542398

image-20240412184604578

image-20240412184818805 image-20240412184841137

image-20240412185016576

解决井喷问题

image-20240412185048990

在bert里面需要用到

image-20240412185417436

image-20240412185710165

SUmmary of OPtimization

image-20240412185829595

image-20240412185858252

下节预告:

image-20240412190008721

http://www.lryc.cn/news/337514.html

相关文章:

  • [Python图像识别] 五十二.水书图像识别 (2)基于机器学习的濒危水书古文字识别研究
  • Jmeter针对多种响应断言的判断
  • Harmony鸿蒙南向驱动开发-Regulator接口使用
  • 【opencv】示例-grabcut.cpp 使用OpenCV库的GrabCut算法进行图像分割
  • GEE数据集——巴基斯坦国家级土壤侵蚀数据集(2005 年和 2015 年)
  • 服务器代理
  • 【SGDR】《SGDR:Stochastic Gradient Descent with Warm Restarts》
  • 如何将arping以及所有依赖打包安装到另外一台离线ubuntu机器
  • mac上如何安装python3
  • Java 那些诗一般的 数据类型 (下篇)
  • WEB3.0:互联网的下一阶段
  • Fastgpt配合chatglm+m3e或ollama+m3e搭建个人知识库
  • 如何使用选择器精确地控制网页中每一个元素的样式?
  • 各个微前端框架的优劣浅谈
  • 自动化运维(二十二)Ansible实战 之Jenkins模块
  • Python数据分析与应用 |第4章 使用pandas进行数据预处理 (实训)
  • 基于双向长短期神经网络BILSTM的线损率预测,基于gru的线损率预测
  • 智能售货机:引领便捷生活
  • 正向代理和反向代理
  • kimichat使用技巧:用语音对话聊天
  • 机器学习-09-图像处理02-PIL+numpy+OpenCV实践
  • 应急响应-战前反制主机HIDSElkeid蜜罐系统HFish
  • C#:24小时制和12小时制之间的转换
  • 说说TCP为什么需要三次握手和四次挥手?
  • STM32 串口接收定长,不定长数据
  • C++设计模式|0.前言
  • [蓝桥杯] 岛屿个数(C语言)
  • Apache Storm的详细配置
  • kylin v10 php源码安装后配置nginx
  • 【01背包】滚动数组优化实现一维01背包DP(对比朴素写法)