当前位置: 首页 > news >正文

知识积累(二):损失函数正则化与权重衰减

文章目录

  • 1. 欧氏距离与L2范数
    • 1.1 常用的相似性度量
  • 2. 什么是正则化?
  • 参考资料


本文只介绍 L2 正则化。


1. 欧氏距离与L2范数

欧氏距离也就是L2范数

1.1 常用的相似性度量

1)点积
2)余弦相似度
3)L1和L2

2. 什么是正则化?

正则化是机器学习中通过显式的控制模型复杂度来避免模型过拟合、确保泛化能力的一种有效方式。
2.1 正则化如何影响模型复杂度
1)loss(w,b)是 w 和 b 的函数。(这里的 w 和 b 简单理解就是 y = wx+b)
2)机器学习本质:损失函数找到最优解(损失函数最小点)。找最优解的过程就是参数 w 的不断梯度下降的过程。
  即 w = w - lr *(loss对于w的梯度)
  其中,lr是学习率。
3)整个网络模型本身是 w 和 b 的函数,b是偏置项,不在正则化考虑范围内。所以正则化就是通过约束模型的参数w来限制模型的复杂度。

2.2 L2正则化为什么叫权重衰减?
请添加图片描述
由上图可以看出,相较于不使用正则化的权重更新,加了正则化以后,每次权重更新之前,先让原来的 w 进行一次衰减。
这里的衰减率 a 是一个人为设置的超参数。

2.3 为什么权重衰减可以限制模型复杂度?
1)神经网络模型本质是在拟合一条曲线(函数)来完成不同类别的分类
曲线弯弯绕绕,过拟合
曲线太平,欠拟合
2)所以要想找到合适的曲线(函数),可以按照泰勒展开来理解,减少弯弯绕绕的过程就是降低高次项对于最终结果的影响。
3)权重衰减其实就是不断限制 w 的取值范围。通过对于 w 的限制来约束高次项的影响。(这里不做严格证明)

参考资料

【1】https://www.bilibili.com/video/BV1gf4y1c7Gg/?spm_id_from=333.337.search-card.all.click&vd_source=b4732b5f7a12a21575a1d3423f81fe9c
【2】https://blog.csdn.net/Accelerating/article/details/108218719#%E6%AC%A7%E6%B0%8F%E8%B7%9D%E7%A6%BB
【3】相似性度量:https://zhuanlan.zhihu.com/p/660426812

http://www.lryc.cn/news/304606.html

相关文章:

  • 消息中间件-面试题
  • Python 将二维数组或矩阵变为三维
  • 区块链与Solidity详细介绍及基本语法使用
  • 题目 1253: 老王赛马
  • 【MATLAB源码-第144期】基于matlab的蝴蝶优化算法(BOA)无人机三维路径规划,输出做短路径图和适应度曲线。
  • 地下管线管网三维建模工具MagicPipe3D V3.4.2发布
  • 糖尿病性视网膜病变(DR)的自动化检测和分期
  • C 标准库 - <errno.h>
  • 基于springboot+vue的房屋租赁管理系统(前后端分离)
  • Sora----打破虚实之间的最后一根枷锁----这扇门的背后是人类文明的晟阳还是最后的余晖
  • C语言之static关键字详解
  • Redis高性能原理
  • MSS与cwnd的关系,rwnd又是什么?
  • 解决两个MySQL5.7报错
  • [OpenAI]继ChatGPT后发布的Sora模型原理与体验通道
  • 机器人初识 —— 电机传动系统
  • 安卓游戏开发之音频技术优劣分析
  • 在C语言中,设置Linux系统时间
  • golang k8s包管理工具
  • 数字信号处理:傅里叶分析
  • pat 甲级 1051 Pop Sequence
  • Stable Diffusion 绘画入门教程(webui)-ControlNet(深度Depth)
  • Rust-知多少?
  • Qt不规则可移动窗体的实现
  • Jakarta Bean Validation
  • Flink Catalog 解读与同步 Hudi 表元数据的最佳实践
  • git 使用总结
  • 【Elasticsearch专栏 01】深入探索:Elasticsearch的正向索引和倒排索引是什么
  • Linux、Ubuntu、CenterOS、RedHat、Debian、AIpine关系和区别?
  • 微信小程序开发:通过wx.login()获取用户唯一标识openid和unionid