当前位置: 首页 > news >正文

深度学习好文记录,反复学习

recent update time:2023.12.2

深度学习入门 - 知乎、这本书也很好,作者写的专栏不错。

机器学习,深度学习一些好文_一只菜得不行的鸟的博客-CSDN博客

卷积神经网络学习路线(五)| 卷积神经网络参数设置,提高泛化能力?_"eval_type\":\"pr"-CSDN博客

一文读懂官方给出torch.nn.RNN API的参数及手写RNN API复现_nn.rnn参数-CSDN博客

关于BN折叠的问题

使用Batch Normalization折叠来加速模型推理-CSDN博客

BN层和前一层(Conv,Linear)

通常,在batch normalization层之前的层中是没有bias的,因为这是无用的,也是对参数的浪费,因为任何常数都会被batch normalization抵消掉。

在深度神经网络中,有时在 Batch Normalization 层之前的线性层(例如全连接层或卷积层)会被设计为没有偏置(bias)。这样的设计是有一些原因的,尤其是在使用 Batch Normalization 时:

Batch Normalization的效果: Batch Normalization 在其操作中包含了均值的减去和方差的除以等操作,这些操作本身具有平移和缩放的效果。如果在 Batch Normalization 层之前加上了偏置,它的作用在某种程度上会被 Batch Normalization 的操作所抵消,从而可能减弱 Batch Normalization 的效果。

BN

标准化与归一化_标准化和归一化_Weber77的博客-CSDN博客

ML领域更常使用标准化,如果数据不为稳定,存在极端的最大最小值,不要用归一化。z值归一化=标准化

BN可以省去dropout,L1, L2等正则化处理方法.

这人写的都不错:

Transformer 相关理解(上)_向量内积 相似性-CSDN博客

http://www.lryc.cn/news/251204.html

相关文章:

  • CSS浅谈动画性能
  • 万能的视频格式播放器
  • 设计模式---第五篇
  • .NET8构建统计Extreme Optimization Numerical Libraries
  • 07-原型模式-C语言实现
  • 深度学习与深度迁移学习有什么区别?
  • 创建Asp.net MVC项目Ajax实现视图页面数据与后端Json传值显示
  • 1089 Insert or Merge (插入排序,相邻归并排序,附模拟实现)
  • 基于算能的国产AI边缘计算盒子8核心A53丨17.6Tops算力
  • Eaxyx 让圆球跟随鼠标移动
  • Node.js 事件循环:定时任务、延迟任务和 I/O 事件的艺术
  • 陪诊系统:基于自然语言处理的患者沟通创新
  • 实用攻略——SD-WAN网络配置步骤详解
  • ​无人机摄影测量
  • 对el-select封装成组件使用
  • pytorch 多卡并行训练
  • C# Bin、XML、Json的序列化和反序列化
  • mediapipe+opencv实现保存图像中的人脸,抹去其他信息
  • clickhouse的向量化执行
  • R语言实验三
  • springboot-mongodb-连接配置
  • 基于单片机的多功能视力保护器(论文+源码)
  • 如何保护 API 安全
  • 工业机器视觉megauging(向光有光)使用说明书(十五,轻量级的visionpro)
  • Linux e2fsck命令教程:如何检查和修复文件系统(附案例详解和注意事项)
  • TypeScript 的安装与使用
  • Git版本管理配置说明 - Visual Studio
  • Rust语言项目实战(四) - 界面绘制与渲染
  • 动态规划学习——回文串
  • 优化你的计算机性能:如何根据 CPU 占用率决定硬件升级