当前位置: 首页 > news >正文

【李沐深度学习笔记】基础优化方法

课程地址和说明

基础优化方法p2
本系列文章是我学习李沐老师深度学习系列课程的学习笔记,可能会对李沐老师上课没讲到的进行补充。

基础优化方法

在讲具体的线性回归实现之前,要先讲一下基础的优化模型的方法

梯度下降

当模型没有显示解(最优解)的时候,用梯度下降法迭代到局部最优值(贪心原则)

  1. 首先挑选一个随机初始值 w 0 → \overrightarrow{w_{0}} w0
  2. 不断更新 w 0 w_{0} w0使得其接近最优解,即 w t → = w t − 1 → − η ∂ ℓ ∂ w t − 1 → \overrightarrow{w_{t}}= \overrightarrow{w_{t-1}}-\eta \frac{\partial \ell}{\partial \overrightarrow{w_{t-1}}} wt =wt1 ηwt1 ,其中, w t − 1 → \overrightarrow{w_{t-1}} wt1 代表时刻 t t t上一时刻 t − 1 t-1 t1对应的 w → \overrightarrow{w} w 的值, η \eta η是标量,为学习率,是人为设定的(超参数是需要人为指定的值), ∂ ℓ ∂ w t − 1 → \frac{\partial \ell}{\partial \overrightarrow{w_{t-1}}} wt1 代表的是 t − 1 t-1 t1时刻对应的梯度向量的方向;
  3. 下图为某多元函数的等高线图:

    梯度向量的方向是使得函数值增加最快的方向,即与等高线正交的图中的红色向量,而梯度的反方向(即负梯度向量)是使得函数值减少的最快的方向即图中的黄色箭头所指向的方向(所以表达式中要对梯度取负号),也就是按照负梯度方向可以找到函数的极小值,而 η \eta η学习率代表的是沿着负梯度方向一次走多远,比如:随机初始到 w 0 → \overrightarrow {w_{0}} w0 这个点(以向量形式表示),则按照学习率乘以负梯度迭代到 w 1 → \overrightarrow {w_{1}} w1

选择学习率

  • 如果学习率过小,每一次走的步长有限,走到局部优化点是需要很大代价的;
  • 如果学习率过大,会导致迭代振荡,甚至无法走到局部优化点。

小批量随机梯度下降

深度学习方法常采用小批量随机梯度下降

【注】超参数需要人为指定数值。

选择批量大小

总结

http://www.lryc.cn/news/175157.html

相关文章:

  • tmux 配置vim风格按键,支持gbk编码
  • Python —— excel文件操作(超详细)
  • 什么是AI问答机器人?它的应用场景有哪些?
  • 静态文件
  • Centos7 自部署中间件开机启动,以及java应用开机启动方法
  • 密度估计公式
  • 2023 ICPC 网络赛 第一场(补题:F)
  • MySQL慢查询优化、日志收集定位排查、慢查询sql分析
  • HZOJ-266:表达式计算
  • JavaScript学习小结
  • MySQL学习笔记13
  • 怎么获取外网ip地址
  • 算法 只出现一次的两个数字-(哈希+异或)
  • 外卖霸王餐小程序、H5、公众号版外卖系统源码
  • amlogic 机顶盒关闭DLNA 后,手机还能搜到盒子
  • @Autowire、@Recourse用啥?
  • [linux] 过滤警告⚠️
  • Linux必备操作系统命令大全
  • 【rtp】VideoTimingExtension 扩展的解析和写入
  • 网络安全CTF比赛有哪些事?——《CTF那些事儿》告诉你
  • Winform直接与Wpf交互
  • Uni-app 调用微信地图导航功能【有图】
  • Golang slice 通过growslice调用nextslicecap计算扩容
  • HTTP 协商缓存 Last-Modified,If-Modified-Since
  • 零基础教程:Yolov5模型改进-添加13种注意力机制
  • vue截取地址参数
  • ubuntu 14.04更新GCC版本
  • AndroidUtil - 强大易用的安卓工具类库
  • [多态设计模式]枚举
  • 【QT】QRadioButton的使用(17)