当前位置: 首页 > news >正文

2022最新版-李宏毅机器学习深度学习课程-P14 批次(batch)与动量(momentum)

一、batch

回顾epoch、shuffle

 batch size大还是小?都有好处

大batchsize的好处

由于GPU有并行计算的能力,左边并不一定用时更长

反而是,batch size小的时候,要跑完一个epoch所用的update时间更长,所以时间方面的比较真不好说~

小batchsize的好处

实验表明,小的batch size拥有更好的性能(优化方面的问题)

粗略分析,可能是由于小batchsize时,噪声更多,更不容易困住。

实验表明,就算在训练集上效果差不多,在测试集上可以看出小batchsize效果更好!

原因可能是,假设测试集损失与训练集损失有一个左右的平移,小batchsize是缓慢更新接近目标的,曲线更平缓,不容易预测差别太大。但大batchsize是看完所有数据再更新的,可能会更陡峭,此时平移后会发生较大改变。

总结

所以我们就拥有了一个超参数需要调整:batchsize!下表是他们的优劣

现在需要选择合适的batchsize,兼顾两者优点

二、momentum

来源

考虑物理世界,运动的物理会有动量,有顺着速度方向运动的趋势

一般的(香草的)梯度下降方法

加入momentum 后

加上动量后,需要考虑前一步梯度的方向(矢量求和)

动量也是与g有关,可以写成如下表达方式

加上动量后,损失运动的方式:不会停留在梯度=0的地方,遇到上坡时由于惯性也会继续往前试试寻找下坡。。。

三、总结

http://www.lryc.cn/news/195075.html

相关文章:

  • 谜题(Puzzle, ACM/ICPC World Finals 1993, UVa227)rust解法
  • acwing算法基础之数据结构--双链表
  • 将中文名格式化输出为英文名
  • 设计模式_迭代器模式
  • 【数据结构】:栈的实现
  • 微前端一:技术选型
  • FPGA project : flash_continue_write
  • 论文阅读:Rethinking Range View Representation for LiDAR Segmentation
  • 本地配置免费的https咋做?
  • 微信小程序框架---详细教程
  • 【LeetCode刷题(数组and排序)】:存在重复元素
  • 半导体产业链解析:晶圆厂、无晶圆厂与代工厂的比较与作用
  • Apipost一键压测已支持导入CSV文件
  • RabbitMQ的5种模式——再探RabbitMQ的模式,简单、工作,发布订阅(广播),路由、主题 页面分析
  • 初识华为云数据库GaussDB for openGauss
  • 深圳寄包裹到德国
  • 系统架构师备考倒计时22天(每日知识点)Redis篇
  • 现有库存(on-hand inventory),库存水平(inventory level),库存位置(inventory position)
  • 智慧空开让用电更安全、管理更智能——电脑APP远程控制开合闸
  • PyTorch 中张量运算广播
  • Blender:使用立方体制作动漫头像
  • 【ppt技巧】ppt里的图片如何提取出来?
  • Python学习基础笔记七十三——调试程序
  • BOSHIDA DC电源模块关于电容器的电解液位置
  • 如何实现 Es 全文检索、高亮文本略缩处理(封装工具接口极致解耦)
  • C++多线程编程(第四章 案例1,C++11和C++17 多核并行计算样例)
  • 获取远程仓库的信息和远程分支的信息
  • QT学习day1
  • unity面试八股文 - 框架设计与资源管理
  • 智能网关IOT 2050采集应用