当前位置：首页 > news >正文

神经网络反向传播算法公式推导

news 2025/7/1 23:43:42

要推导反向传播算法，并了解每一层的参数梯度如何计算，以及每一层的梯度受到哪些值的影响，我们使用一个简单的神经网络结构：

输入层有2个节点
一个有2个节点的隐藏层，激活函数是ReLU
一个输出节点，激活函数是线性激活（即没有激活函数）

假设权重矩阵和偏置如下：

输入层到隐藏层的权重矩阵 $W_1$ 是 $\times 2$
隐藏层的偏置向量 $b_1$ 是 $\times 1$
隐藏层到输出层的权重矩阵 $W_2$ 是 $\times 1$
输出层的偏置向量 $b_2$ 是一个标量

输入为 $x = [x_1, x_2]$ ，期望输出为 $y$ ，损失函数为均方误差（MSE）。

前向传播：

计算隐藏层的输入：
$z_1 = W_1 \cdot x + b_1$
计算隐藏层的激活：
$a_1 = \text{ReLU}(z_1)$
计算输出层的输入：
$z_2 = W_2^T \cdot a_1 + b_2$
输出值：
$\hat{y} = z_2$
计算损失：
$\frac{1}{2} (\hat{y} - y)^2$

反向传播：

计算输出层的梯度：
- 损失函数对输出层输入的梯度：
  $\frac{\partial L}{\partial z_2} = \hat{y} - y$
计算从输出层到隐藏层的梯度：
- 隐藏层激活对权重的梯度：
  $\frac{\partial L}{\partial W_2} = \frac{\partial L}{\partial z_2} \cdot a_1$
- 隐藏层激活对偏置的梯度：
  $\frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial z_2}$
计算隐藏层的梯度：
- 损失函数对隐藏层激活的梯度：
  $\frac{\partial L}{\partial a_1} = W_2 \cdot \frac{\partial L}{\partial z_2}$
- 隐藏层对隐藏层输入的梯度（ReLU的梯度）：
  $\frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial a_1} \cdot \text{ReLU}'(z_1)$
  - ReLU梯度 $\text{ReLU}'(z_1)$ 在 $z_1 > 0$ 时为1，否则为0
计算从输入层到隐藏层的梯度：
- 输入对权重的梯度：
  $\frac{\partial L}{\partial W_1} = \frac{\partial L}{\partial z_1} \cdot x^T$
- 输入对偏置的梯度：
  $\frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial z_1}$

详细推导实例：

假设：

$x = [1, 2]$
$y = 3$
$W_1 = \begin{bmatrix} 0.5 & 0.2 \\ 0.3 & 0.7 \end{bmatrix}$
$b_1 = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$
$W_2 = \begin{bmatrix} 0.6 \\ 0.9 \end{bmatrix}$
$b_2 = 0.3$

前向传播：
1.
$z_1 = W_1 \cdot x + b_1 = \begin{bmatrix} 0.5 & 0.2 \\ 0.3 & 0.7 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 2 \end{bmatrix} + \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix} = \begin{bmatrix} 1.0 \\ 1.9 \end{bmatrix}$
2.
$a_1 = \text{ReLU}(z_1) = \text{ReLU}(\begin{bmatrix} 1.0 \\ 1.9 \end{bmatrix}) = \begin{bmatrix} 1.0 \\ 1.9 \end{bmatrix}$
3.
$z_2 = W_2^T \cdot a_1 + b_2 = \begin{bmatrix} 0.6 \\ 0.9 \end{bmatrix}^T \cdot \begin{bmatrix} 1.0 \\ 1.9 \end{bmatrix} + 0.3 = 2.46$
4.
$\hat{y} = z_2 = 2.46$
5.
$\frac{1}{2} (2.46 - 3)^2 = 0.1458$

反向传播：
1.
$\frac{\partial L}{\partial z_2} = 2.46 - 3 = -0.54$

$\frac{\partial L}{\partial W_2} = \begin{bmatrix} -0.54 \end{bmatrix} \cdot \begin{bmatrix} 1.0 \\ 1.9 \end{bmatrix} = \begin{bmatrix} -0.54 \cdot 1.0 \\ -0.54 \cdot 1.9 \end{bmatrix} = \begin{bmatrix} -0.54 \\ -1.026 \end{bmatrix}$
$\frac{\partial L}{\partial b_2} = -0.54$
$\frac{\partial L}{\partial a_1} = \begin{bmatrix} 0.6 \\ 0.9 \end{bmatrix} \cdot -0.54 = \begin{bmatrix} -0.324 \\ -0.486 \end{bmatrix}$
$\frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial a_1} \cdot \text{ReLU}'(z_1) = \begin{bmatrix} -0.324 \\ -0.486 \end{bmatrix} \cdot \begin{bmatrix} 1 \\ 1 \end{bmatrix} = \begin{bmatrix} -0.324 \\ -0.486 \end{bmatrix}$
$\frac{\partial L}{\partial W_1} = \frac{\partial L}{\partial z_1} \cdot x^T = \begin{bmatrix} -0.324 \\ -0.486 \end{bmatrix} \cdot \begin{bmatrix} 1 & 2 \end{bmatrix}^T = \begin{bmatrix} -0.324 & -0.648 \\ -0.486 & -0.972 \end{bmatrix}$
$\frac{\partial L}{\partial b_1} = \begin{bmatrix} -0.324 \\ -0.486 \end{bmatrix}$