当前位置：首页 > news >正文

ccc-Tips for Deep Learning-李宏毅(8)

news 2025/7/9 2:01:09

文章目录

- - - Recipe of Deep Learning
    - Good Results on Training Data
    - - New activation function
      - Adaptive Learning Rate
    - Good Results on Testing Data
    - - Early Stopping
      - Regularization
      - Dropout
    - why Dropout work？
    - - Reason for bias&variance
      - Dropout is a kind of ensemble

Recipe of Deep Learning

Do not always blame overfitting
对于DL模型而言，测试集效果不好不一定是overfitting，可能和训练方式和模型结构有关，下图就是一个56层神经网络在测试集和训练集效果都不如26层的例子：
在这里插入图片描述

Good Results on Training Data

New activation function

在这里插入图片描述
当model使用sigmoid这个激活函数时会出现层数增加准确率反而减小的问题，问题来源是vanishing gradient problem（梯度消失）
vanishing gradient problem

图像中可以看到，输入的差值在经过sigmoid函数后会被缩小，这也导致model很深的时候，靠近input参数对于损失函数的影响很小（Backpropagation反向），而靠近output时梯度update确很快。所以导致训练结束时，前面的参数还是未收敛的random状态，形象解释如下：
在这里插入图片描述
Rectified Linear Unit （ReLU）

特点如下：

解决梯度消失问题
相当于无数bias不同的sigmoid叠加
计算快
使网络变得thinner
单个神经元是线性的，但整体网络还是非线性
直接放弃输出为0的neural

操作示意图如下：
在这里插入图片描述
ReLU - variant
大同小异，为了让0的那部分更加合理，有东西可学

Maxout
就是对于同一组输出选最大的当作下一组输入，示意图如下：

它相当于ReLU 的普遍状态，状态图（2 elements）如下：

Adaptive Learning Rate

这些优化算法在之前的文章有过更加详细全面的讲解

Good Results on Testing Data

Early Stopping

在这里插入图片描述

“testing set”效果最好时手动停止训练，这里的“testing set”指validation set模拟的testing set

Regularization

目的是让objective function平滑，通常去掉bias后效果更好
L2 regularization
在这里插入图片描述

$ηλ\eta \lambda$ 这项是很小的正数，最后会使参数 $w^n$ 接近0 ，L2 regularization可以让weight每次都变得更⼩⼀点（由于第二项的存在，不会为0）也称Weight Decay(权重衰减)
L1 regularization
在这里插入图片描述
也是让参数变小，不过是通过减去 $ηλsgn(wt)\eta \lambda sgn(w^t)$ 来使得绝对值靠近0
L1 V.s. L2