当前位置: 首页 > news >正文

【机器学习】梯度下降

文章目录

    • 1. 梯度下降概念
    • 2. 梯度下降的技巧
      • 2.1 动态设置学习率
      • 2.2 Adagrad调整梯度
      • 2.3 随机梯度下降(SGD)
      • 2.4 特征缩放
    • 3. 梯度下降理论基础

1. 梯度下降概念

  • 梯度:Loss 对参数在某一点的偏微分,函数沿梯度的方向具有最大的变化率
  • 梯度下降:从某点出发,计算该点梯度,以一定的学习率沿着该梯度的反方向移动,直到梯度接近 0
  • 公式: w t + 1 = w t − η d L d w w_{t+1} = w_t - \eta \frac{dL}{dw} wt+1=wtηdwdL

2. 梯度下降的技巧

2.1 动态设置学习率

  • 原理:离终端越远,学习率越大;离终点越近,学习率越小。
  • 公式: η t = η t \eta_t = \frac{\eta}{\sqrt{t}} ηt=t η
    其中,t 是迭代次数。

2.2 Adagrad调整梯度

  • 原理:

    • 梯度大的时候,调正的步伐不一定要大,要综合考虑到二阶导数的影响。
    • 通过参数的历史信息来调整学习率。
  • 使用 Adagrad 方法更新参数的公式:

    • η t σ t = η ∑ i = 1 t ( g i ) 2 \frac{\eta^t}{\sigma^t} = \frac{\eta}{\sqrt{\sum_{i=1}^{t} (g^i)^2}} σtηt=i=1t(gi)2 η
    • w t + 1 = w t − η t σ t g t w^{t+1} = w^t - \frac{\eta^t}{\sigma^t} g^t wt+1=wtσtηtgt

    其中: σ t \sigma^t σt 是梯度平方的累加和(即历史梯度的平方和的平方根)。

  • 总结:化简后,分子是一阶导数,分母其实是反应二阶导数的影响

2.3 随机梯度下降(SGD)

  • 概念:不考虑所有样本,每次随机选取某个或某些样本点来做梯度下降更新参数。
  • 作用:
    • 训练更迅速,结果也不会太差。
    • 可能受到某些样本的影响,导致不精确。

2.4 特征缩放

  • 概念:将不同的输入特征统一缩放到相同的范围或分布。

特征归一化

  • 公式: x ′ = x − min ⁡ ( x ) max ⁡ ( x ) − min ⁡ ( x ) x' = \frac{x - \min(x)}{\max(x) - \min(x)} x=max(x)min(x)xmin(x)
  • 将数据统一到特定的范围,避免某些极端数据的影响。

特征标准化

  • 公式: x ′ = x − μ σ x' = \frac{x - \mu}{\sigma} x=σxμ
    其中:

    • μ \mu μ 是特征的均值。
    • σ \sigma σ 是特征的标准差。
  • 效果:

    • 数据更符合正态分布,处理后的特征均值为 0,标准差为 1。
    • 减少特征间方差的差异,帮助加速收敛。

特征缩放的优点

  • 未处理之前:

    • Loss 是一个椭圆,每次更新沿着等高线(梯度)方向走,不是往圆心(最低点)走。
    • 如果不使用 Adagrad,可能很难得到好的结果。
  • 处理之后:

    • Loss 是一个圆,每次更新都往圆心(最低点)走,容易训练。
    • 有助于模型训练和加快收敛速度。

3. 梯度下降理论基础

泰勒级数近似

  • 理论:
    • 移动方向与梯度(偏导)方向相反时,内积最小。
    • 发现附近以 $\theta $ 半径圈的最小值,移动到那里。

使用前提

  • Loss function 必须是无限可微的。
  • 附近圈小,可以忽略高次项,意味着学习率要足够小。

http://www.lryc.cn/news/511967.html

相关文章:

  • 【leetcode 07】707.设计链表
  • 【Spring】详解(上)
  • 短视频矩阵系统后端源码搭建实战与技术详解,支持OEM
  • 力扣每日刷题
  • QT的信号和槽页面的应用
  • 【Java】线程相关面试题 (基础)
  • 【数字化】华为一体四面细化架构蓝图
  • frameworks 之 WMS添加窗口流程
  • 搜索方法归类全解析
  • 第1关:简易考试系统之用户注册
  • VMware的三种网络模式——在NAT模式下开放接口为局域网内其他主机提供服务
  • 智慧地下采矿:可视化引领未来矿业管理
  • 流量主微信小程序工具类去水印
  • 代码随想录算法【Day5】
  • Leetcode 3403. Find the Lexicographically Largest String From the Box I
  • 【游戏设计原理】36 - 环境叙事
  • Python 中的 lambda 函数和嵌套函数
  • 语言模型评价指标
  • 工程师 - MSYS2介绍
  • 算法基础三:插入排序
  • 小米汽车加速出海,官网建设引领海外市场布局!
  • Python Polars快速入门指南:LazyFrames
  • 什么是网络安全(Cybersecurity)?
  • VBA批量插入图片到PPT,一页一图
  • Pandas-DataFrame入门
  • 爬虫 - 爬取王者荣耀所有皮肤图片
  • 【畅购商城】购物车模块之查看购物车
  • Spring Boot 学习笔记
  • 快速打造智能应用:从设计到上线的全流程指南
  • Java-将一个大列表均分成多个小列表,每个小列表包含10个元素