当前位置：首页 > news >正文

机器学习笔记之前馈神经网络(四)反向传播算法[数学推导过程]

news 2025/8/1 18:26:55

机器学习笔记之前馈神经网络——反向传播算法[数学推导过程]

引言
- 回顾：感知机算法
- 非线性问题与多层感知机
- 反向传播算法( $BackPropagation,BP\text{BackPropagation,BP}$ )
- - 场景构建
  - 求解各权重更新量
  - 图示描述反向传播过程
- 总结

引言

上一节介绍了 $M-P\text{M-P}$ 神经元模型，并介绍了感知机算法 $(Perceptron)(\text{Perceptron})$ 的参数调整过程。本节将介绍多层前馈神经网络，并介绍反向传播算法。

回顾：感知机算法

关于感知机算法，它本质上是一个仅包含一个 $M-P\text{M-P}$ 神经元的神经网络模型。以基本逻辑运算与为例，它们对应感知机算法的网络模型表示如下：
需要注意的是，这里的 $x_1,x_2$ 是输入层，它们均表示‘样本特征的随机变量’，因而它们仅是‘接收外部信号的载体’，并不是 $M-P\text{M-P}$ 神经元模型。
基本逻辑运算_(感知机算法)网络模型
对应计算流程表示如下：
$Yout=f(W1⋅x1+W2⋅x2−θ)\mathcal Y_{out} = f \left(\mathcal W_1 \cdot x_1 + \mathcal W_2 \cdot x_2 - \theta \right)$
对于上述计算流程中的权重 $W1,W2\mathcal W_1,\mathcal W_2$ 和阈值 $θ\theta$ ，可将阈值 $θ\theta$ 视作一个固定输入的哑结点( $Node\text{Dummy Node}$ )与对应权重的线性组合，从而使学习过程可统一为权重的学习过程：
$Yout=f(W1⋅x1+W2⋅x2+WDum⋅xDum⏟Fixed)\mathcal Y_{out} = f(\mathcal W_1 \cdot x_1 + \mathcal W_2 \cdot x_2 + \mathcal W_{\text{Dum}} \cdot \underbrace{x_{\text{Dum}}}_{\text{Fixed}})$
关于感知机算法权重学习过程的参数调整使用梯度下降法。针对逻辑计算与，本质上是二分类问题。感知机算法关于策略的构建动机是策略驱动：
${LTrue(W)=∑(x(i),y(i))∈Dy^(i)(WTx(i))arg⁡max⁡WLTrue(W){LFalse(W)=−∑(x(i),y(i))∈Dy(i)(WTx(i))arg⁡min⁡WLFalse(W)\begin{aligned} & \begin{cases} \mathcal L_{\text{True}}(\mathcal W) = \sum_{(x^{(i)},y^{(i)}) \in \mathcal D} \hat y^{(i)} \left(\mathcal W^Tx^{(i)}\right) \\ \mathop{\arg\max}\limits_{\mathcal W} \mathcal L_{\text{True}}(\mathcal W) \end{cases} \\ & \begin{cases} \mathcal L_{\text{False}}(\mathcal W) = -\sum_{(x^{(i)},y^{(i)}) \in \mathcal D} y^{(i)} \left(\mathcal W^Tx^{(i)}\right) \\ \mathop{\arg\min}\limits_{\mathcal W} \mathcal L_{\text{False}}(\mathcal W) \end{cases} \\ \end{aligned}$
关于感知机权重的调整过程可表示为：
$W(t+1)⇐W(t)−η⋅∇WL(W)=W(t)−η⋅[∂LFalse(W)∂W+∂LTrue(W)∂W]=W(t)−η⋅∑(x(i),y(i))∈D(y^(i)−y(i))x(i)=W(t)+η⋅∑(x(i),y(i))∈D(y(i)−y^(i))x(i)\begin{aligned} \mathcal W^{(t+1)} & \Leftarrow \mathcal W^{(t)} - \eta \cdot \nabla_{\mathcal W} \mathcal L(\mathcal W) \\ & = \mathcal W^{(t)} - \eta \cdot \left[\frac{\partial \mathcal L_{\text{False}}(\mathcal W)}{\partial \mathcal W} + \frac{\partial \mathcal L_{\text{True}}(\mathcal W)}{\partial \mathcal W}\right] \\ & = \mathcal W^{(t)} - \eta \cdot \sum_{(x^{(i)},y^{(i)}) \in \mathcal D} \left(\hat y^{(i)} - y^{(i)}\right) x^{(i)} \\ & = \mathcal W^{(t)} + \eta \cdot \sum_{(x^{(i)},y^{(i)}) \in \mathcal D} \left(y^{(i)} - \hat y^{(i)}\right) x^{(i)} \end{aligned}$

其中 $η\eta$ 表示学习率( $Rate\text{Learning Rate}$ )。关于迭代结束的标志：当关于样本特征 $x^{(i)}$ 的预测结果 $y^(i)\hat y^{(i)}$ 与真实标签 $y^{(i)}$ 相等，此时 $W(t)⇒W(t+1)\mathcal W^{(t)} \Rightarrow \mathcal W^{(t+1)}$ 不会发生变化，迭代可以停止。

非线性问题与多层感知机

在前馈神经网络——非线性问题中已经对解决非线性问题的方式进行了介绍，这里不再赘述。这里仅从 $M-P\text{M-P}$ 神经元模型的角度重温一下处理亦或问题的多层感知机结构：
亦或问题-两层感知机
很明显，这是一个两层感知机，其中包含输入层结点 $x_1,x_2$ ，输出层结点 $Y\mathcal Y$ 以及隐含层( $Layer\text{Hidden Layer}$ )结点 $h_1,h_2$ 。

相比于感知机算法，上述多层感知机明显由 $3$ 个 $M-P\text{M-P}$ 神经元模型嵌套组合的结构。并且神经元之间不存在同层连接，也不存在跨层连接。这种神经网络结构被称作多层前馈神经网络( $Network\text{Multi-Layer Feed-Forward Neural Network}$ )。
以上述结构为例，输入层不算网络层数，因而上述结构被称作‘两层网络’。但如果将隐藏层、输出层区分开，也可以将其称作：单隐层网络。

上述模型需要学习的权重参数有：
$Θ={W11,W12,W21,W22,θ1,θ2,θ3}\Theta = \{\mathcal W_{11},\mathcal W_{12},\mathcal W_{21},\mathcal W_{22},\theta_1,\theta_2,\theta_3\}$

反向传播算法( $BackPropagation,BP\text{BackPropagation,BP}$ )

虽然上述的神经网络结构能够处理非线性问题，但关于权重参数 $Θ\Theta$ 的学习过程，仅使用如错误驱动这种简单策略是不够的。
由于 $M-P\text{M-P}$ 神经元的嵌套，使得网络结构变得更加复杂，仅通过随机调整参数去观察 $y(i)−y^(i)y^{(i)} - \hat y^{(i)}$ 的计算代价是极大的。

针对于多层神经网络，反向传播算法就是其中最杰出的代表。下面通过示例对梯度的反向传播过程进行描述。

场景构建

关于数据集合 $D\mathcal D$ 的描述表示如下：
这里为了泛化起见，并没有将标签 $y(i)(i=1,2,⋯,N)y^{(i)}(i=1,2,\cdots,N)$ 约束为标量，而是一个包含 $l$ 个随机变量的向量形式。
$D={x(i),y(i)}i=1Nx(i)∈Rd;y(i)∈Rl\mathcal D = \{x^{(i)},y^{(i)}\}_{i=1}^N \quad x^{(i)} \in \mathbb R^{d};y^{(i)} \in \mathbb R^l$
上述条件已经给出了输入层、输出层的规模分别是 $d, l$ ，基于此构建一个含一个隐藏层的、隐藏层内神经元个数为 $q$ 的单隐层前馈神经网络：
单隐层神经网络示例

观察上图，除了输入层，隐藏层、输出层的结点均是 $M-P\text{M-P}$ 神经元模型：

其中隐藏层神经元的阈值分别表示为： ${γ1,γ2,⋯,γq}\{\gamma_1,\gamma_2,\cdots,\gamma_q\}$ ；输出层神经元的阈值分别表示为： ${θ1,θ2,⋯,θl}\{\theta_1,\theta_2,\cdots,\theta_l\}$ ；
输入层结点 ${x1,x2,⋯,xd}\{x_1,x_2,\cdots,x_d\}$ 指向隐藏层第 $h$ 个神经元 $b_h$ 的权重分别表示为： ${v1h,v2h,⋯,vdh}\{v_{1h},v_{2h},\cdots,v_{dh}\}$ ；同理，隐藏层神经元 ${b1,b2,⋯,bq}\{b_1,b_2,\cdots,b_q\}$ 指向输出层第 $j$ 个神经元 $y_j$ 的权重分别表示为： ${w1j,w2j,⋯,wqj}\{w_{1j},w_{2j},\cdots,w_{qj}\}$ ；
关于隐藏层神经元 $b_h$ 接收到的输入 $αh\alpha_h$ 可表示为：
$αh=v1h⋅x1+⋯+vdh⋅xd=∑i=1dvih⋅xi\alpha_h = v_{1h} \cdot x_1 + \cdots + v_{dh} \cdot x_d = \sum_{i=1}^d v_{ih} \cdot x_i$
关于输出层神经元 $y_j$ 接收到的输入 $βj\beta_j$ 可表示为：
$βj=w1j⋅b1+⋯+wqj⋅bq=∑i=1qwij⋅bi\beta_j = w_{1j} \cdot b_1 + \cdots + w_{qj} \cdot b_q = \sum_{i=1}^q w_{ij} \cdot b_i$

这里假设隐藏层、输出层神经元使用 $Sigmoid\text{Sigmoid}$ 函数作为激活函数。并以回归任务为例，针对某一具体样本 $(x(k),y(k))∈D(x^{(k)},y^{(k)}) \in \mathcal D$ 进行计算。

求解各权重更新量

针对具体样本 $x^{(k)},y^{(k)})$ ，将样本特征 $x(k)=(x1(k),x2(k),⋯,xd(k))Tx^{(k)} = (x_1^{(k)},x_2^{(k)},\cdots,x_d^{(k)})^T$ 带入到神经网络中，从 $M-P\text{M-P}$ 神经元的角度观察，对应神经网络的输出 $y^(k)=(y^1(k),y^2(k),⋯,y^l(k))T\hat y^{(k)} = (\hat y_1^{(k)},\hat y_2^{(k)},\cdots,\hat y_l^{(k)})^T$ 表示为：

这里实际上描述的并不准确，因为 $βj,θj\beta_j,\theta_j$ 仅表示泛化的样本 $x$ 作为输入层的输入，对应的接收结果和阈值。如果针对真实样本 $x^{(k)},y^{(k)})$ ,应该写作 $βj(k),θj(k)\beta_j^{(k)},\theta_j^{(k)}$ ，这里为了节约符号，直接用 $βj,θj\beta_j,\theta_j$ 替代。
这里仅描述了神经元 $y_j$ 的输出信息。
$y^j(k)=f(βj−θj)=f(∑i=1qwij⋅bi−θj)j=1,2,⋯,l\hat y_j^{(k)} = f(\beta_j - \theta_j) = f \left(\sum_{i=1}^q w_{ij} \cdot b_i - \theta_j\right) \quad j=1,2,\cdots,l$

由于是回归任务，因而这里使用 均方误差( $Error,MSE\text{Mean-Square Error,MSE}$ )来描述神经网络输出 $y^(k)\hat y^{(k)}$ 与真实标签 $y^{(k)}$ 之间的误差关系。关于 $x^{(k)},y^{(k)})$ 的误差结果 $E(k)\mathcal E^{(k)}$ 表示如下：

这里由于只有 $1$ 个样本，均值部分 $11\frac{1}{1}$ 就直接省略掉了。
系数 $12\frac{1}{2}$ 仅是为后续求导便利使用。对其求解梯度过程中，仅改变梯度大小，梯度方向不会发生变化。
$E(k)=12(y(k)−y^(k))2=12∑j=1l(yj(k)−y^j(k))2\begin{aligned} \mathcal E^{(k)} & = \frac{1}{2} (y^{(k)} - \hat y^{(k)})^2 \\ & = \frac{1}{2} \sum_{j=1}^l (y_j^{(k)} - \hat y_j^{(k)})^2 \end{aligned}$

重新观察 $y^(k)\hat y^{(k)}$ ，想通过上述神经网络得到一个具体预测结果，需要学习的权重有：
这里说的权重，包含阈值。

输入层与隐藏层之间所有连接的权重信息：一共 $\times d$ 个；
隐藏层与输出层之间所有连接的权重信息：一共 $\times l$ 个；
隐藏层自身的阈值数量： $q$ 个；
输出层自身的阈值数量： $l$ 个；

总共包含 $\times q + l$ 个权重需要学习。这里以输出层某神经元 $y_j$ 与隐藏层某神经元 $b_h$ 之间的连接权重 $Whj\mathcal W_{h_j}$ 为例，计算该权重的更新量：
需要注意的是，该操作仅仅是梯度下降的操作，而不是反向传播算法。
${Whj(t+1)=Whj(t)+△Whj(t)△Whj(t)=−η⋅∂E(k)∂Whj(t)\begin{cases} \mathcal W_{hj}^{(t+1)} = \mathcal W_{hj}^{(t)} + \triangle \mathcal W_{hj}^{(t)} \\ \triangle \mathcal W_{hj}^{(t)} = - \eta \cdot \frac{\partial \mathcal E^{(k)}}{\partial \mathcal W_{hj}^{(t)}} \end{cases}$

观察上图， $Whj\mathcal W_{hj}$ 首先影响的是输出层的第 $j$ 个 $M-P\text{M-P}$ 神经元 $y_j$ ，基于神经元 $y_j$ 接收到的输入是 $βj\beta_j$ ，对应输出特征是 $y^j(k)\hat y_j^{(k)}$ 。使用链式求导法则，将 $∂E(k)∂Whj(t)\frac{\partial \mathcal E^{(k)}}{\partial \mathcal W_{hj}^{(t)}}$ 表示为如下形式：
$∂E(k)∂Whj(t)=∂E(k)∂y^j(k)⋅∂y^j(k)∂βj⋅∂βj∂Whj(t)\frac{\partial \mathcal E^{(k)}}{\partial \mathcal W_{hj}^{(t)}} = \frac{\partial \mathcal E^{(k)}}{\partial \hat y_j^{(k)}} \cdot \frac{\partial \hat y_j^{(k)}}{\partial \beta_j} \cdot \frac{\partial \beta_j}{\partial \mathcal W_{hj}^{(t)}}$
插一句，由于激活函数是 $Sigmoid\text{Sigmoid}$ 函数，关于它的导数可以表示为如下形式：
$f′(x)=[11+e−x]′=1+e−x−1[1+e−x]2=11+e−x⋅[1−11+e−x]=f(x)⋅[1−f(x)]\begin{aligned} f'(x) & = \left[\frac{1}{1 + e^{-x}}\right]' \\ & = \frac{1 + e^{-x} - 1}{\left[1 + e^{-x}\right]^2} \\ & = \frac{1}{1 + e^{-x}} \cdot \left[1 - \frac{1}{1 + e^{-x}}\right] \\ & = f(x) \cdot [1 - f(x)] \end{aligned}$
因而关于链式求导法则中的各项表示如下：

第一项 $∂E(k)∂y^j(k)\begin{aligned}\frac{\partial \mathcal E^{(k)}}{\partial \hat y_j^{(k)}}\end{aligned}$ ：
将不含 $y^j(k)\hat y_j^{(k)}$ 的项，视作常数。
$∂E(k)∂y^j(k)=∂∂y^j(k)[12∑j=1l(yj(k)−y^j(k))2]=∂∂y^j(k){12[∑≠jl(yj(k)−y^j(k))2⏟=0+(yj(k)−y^j(k))2]}=∂∂y^j(k)[12(yj(k)−y^j(k))2]=−(yj(k)−y^j(k))\begin{aligned} \frac{\partial \mathcal E^{(k)}}{\partial \hat y_j^{(k)}} & = \frac{\partial}{\partial \hat y_j^{(k)}} \left[\frac{1}{2} \sum_{j=1}^l \left(y_j^{(k)} - \hat y_j^{(k)}\right)^2\right] \\ & = \frac{\partial}{\partial \hat y_j^{(k)}} \left\{\frac{1}{2} \left[\underbrace{\sum_{\neq j}^l \left(y_j^{(k)} - \hat y_j^{(k)}\right)^2}_{=0} + \left(y_j^{(k)} - \hat y_j^{(k)}\right)^2\right]\right\} \\ & = \frac{\partial}{\partial \hat y_j^{(k)}} \left[\frac{1}{2} \left(y_j^{(k)} - \hat y_j^{(k)}\right)^2\right] \\ & = -(y_j^{(k)} - \hat y_j^{(k)}) \end{aligned}$
第二项 $∂y^j(k)∂βj\begin{aligned}\frac{\partial \hat y_j^{(k)}}{\partial \beta_j}\end{aligned}$ ：
需要注意的点，不要将阈值忘掉，并且 $y^j(k)=Sigmoid(βj−θj)\hat y_j^{(k)} = \text{Sigmoid}(\beta_j - \theta_j)$
$∂y^j(k)∂βj=∂∂βj[Sigmoid(βj−θj)]=y^j(k)⋅[1−y^j(k)]\begin{aligned} \frac{\partial \hat y_j^{(k)}}{\partial \beta_j} & = \frac{\partial}{\partial \beta_j} \left[\text{Sigmoid}(\beta_j - \theta_j)\right] \\ & = \hat y_j^{(k)} \cdot \left[1 - \hat y_j^{(k)}\right] \end{aligned}$
第三项 $∂βj∂Whj\begin{aligned}\frac{\partial \beta_j}{\partial \mathcal W_{hj}}\end{aligned}$ 。根据 $βj\beta_j$ 与 $Whj\mathcal W_{hj}$ 之间的关系：
其中只有一项 $Whj⋅bh\mathcal W_{hj} \cdot b_h$ 和 $Whj\mathcal W_{hj}$ 相关.
$βj=∑i=1qWij⋅bi=W1j⋅b1+⋯+Whj⋅bh+⋯+Wqj⋅bq\begin{aligned} \beta_j & = \sum_{i=1}^q \mathcal W_{ij} \cdot b_i \\ & = \mathcal W_{1j}\cdot b_1 + \cdots + \mathcal W_{hj} \cdot b_h + \cdots + \mathcal W_{qj} \cdot b_q \end{aligned}$
因而有：
$∂βj∂Whj=bh\begin{aligned} \frac{\partial \beta_j}{\partial \mathcal W_{hj}} = b_h \end{aligned}$

至此，关于 $Whj\mathcal W_{hj}$ 的更新量 $△Whj\triangle \mathcal W_{hj}$ 可表示为：
$△Whj=−η⋅∂E(k)∂Whj=−η⋅∂E(k)∂y^j(k)⋅∂y^j(k)∂βj⋅∂βj∂Whj(t)=−η⋅[−(yj(k)−y^j(k))]⋅y^j(k)⋅[1−y^j(k)]⋅bh=η⋅y^j(k)⋅(1−y^j(k))⋅(yj(k)−y^j(k))⋅bh\begin{aligned} \triangle \mathcal W_{hj} & = - \eta \cdot \frac{\partial \mathcal E^{(k)}}{\partial \mathcal W_{hj}} \\ & = -\eta \cdot \frac{\partial \mathcal E^{(k)}}{\partial \hat y_j^{(k)}} \cdot \frac{\partial \hat y_j^{(k)}}{\partial \beta_j} \cdot \frac{\partial \beta_j}{\partial \mathcal W_{hj}^{(t)}} \\ & = - \eta \cdot \left[-(y_j^{(k)} - \hat y_j^{(k)})\right] \cdot \hat y_j^{(k)} \cdot \left[1 - \hat y_j^{(k)}\right] \cdot b_h \\ & = \eta \cdot \hat y_j^{(k)} \cdot (1 - \hat y_j^{(k)})\cdot(y_j^{(k)} - \hat y_j^{(k)}) \cdot b_h \end{aligned}$
同理，其他权重更新量 $△θj,△γh,△vih(k)\triangle \theta_j,\triangle \gamma_h,\triangle v_{ih}^{(k)}$ 的求解过程分别表示为：

$θj\theta_j$ 的权重更新量 $△θj\triangle \theta_j$ ：
$θj\theta_j$ 和 $△Whj\triangle \mathcal W_{hj}$ 仅相差一个 $b_h$ 项.
$△θj=−η⋅∂E(k)∂θj=−η⋅∂E(k)∂y^j(k)⋅∂y^j(k)∂θj=−η⋅[−(yj(k)−y^j(k))]⋅y^j(k)⋅(1−y^j(k))⋅(0−1)=−η⋅y^j(k)⋅(1−y^j(k))⋅(yj(k)−y^j(k))\begin{aligned} \triangle\theta_j & = -\eta \cdot \frac{\partial \mathcal E^{(k)}}{\partial \theta_j} \\ & = -\eta \cdot \frac{\partial \mathcal E^{(k)}}{\partial \hat y_j^{(k)}} \cdot \frac{\partial \hat y_j^{(k)}}{\partial \theta_j} \\ & = - \eta \cdot \left[-(y_j^{(k)} - \hat y_j^{(k)})\right] \cdot \hat y_j^{(k)} \cdot \left(1 - \hat y_j^{(k)}\right) \cdot (0-1) \\ & = - \eta \cdot \hat y_j^{(k)} \cdot (1 - \hat y_j^{(k)})\cdot(y_j^{(k)} - \hat y_j^{(k)}) \\ \end{aligned}$
$γh\gamma_h$ 的权重更新量 $△γh\triangle \gamma_h$ ：
其中 $b_h^{(k)}$ 表示隐藏层的输出,其与 $αh,γh\alpha_h,\gamma_h$ 之间的关系如下：
$bh(k)=Sigmoid(αh−γh)=Sigmoid(∑i=1dvih(k)⋅xi(k))\begin{aligned} b_h^{(k)} & = \text{Sigmoid}(\alpha_h - \gamma_h) \\ & = \text{Sigmoid} \left(\sum_{i=1}^d v_{ih}^{(k)} \cdot x_i^{(k)}\right) \end{aligned}$
同上，关于隐藏层第 $h$ 个神经元的阈值 $γh\gamma_h$ 具体是指 $γh(k)\gamma_h^{(k)}$ ,这里为简化符号，不做修改.
并且隐藏层神经元输出 $b_h$ 与输出层的所有神经元之间均存在关联关系，因此需要加上 $∑j=1l\sum_{j=1}^l$ .
$△γh=−η⋅∂E(k)∂γh=−η⋅∂E(k)∂bh(k)⋅∂bh(k)∂γh=−η⋅∑j=1l(∂E(k)∂y^j(k)⋅∂y^j(k)∂βj⋅∂βj∂bh(k))⋅∂bh(k)∂γh=−η⋅∑j=1ly^j(k)⋅(1−y^j(k))⋅[−(yj(k)−y^j(k))]⋅Whj⋅[−bh⋅(1−bh)]=−η⋅[bh⋅(1−bh)]⋅∑j=1l[Whj⋅y^j(k)⋅(1−y^j(k))⋅(yj(k)−y^j(k))]\begin{aligned} \triangle \gamma_h &= -\eta \cdot \frac{\partial \mathcal E^{(k)}}{\partial \gamma_h} \\ & = -\eta \cdot \frac{\partial \mathcal E^{(k)}}{\partial b_h^{(k)}} \cdot \frac{\partial b_h^{(k)}}{\partial \gamma_h} \\ & = -\eta \cdot \sum_{j=1}^l\left(\frac{\partial \mathcal E^{(k)}}{\partial \hat y_j^{(k)}} \cdot \frac{\partial \hat y_j^{(k)}}{\partial \beta_j} \cdot \frac{\partial \beta_j}{\partial b_h^{(k)}}\right) \cdot \frac{\partial b_h^{(k)}}{\partial \gamma_h} \\ & = -\eta \cdot \sum_{j=1}^l \hat y_j^{(k)} \cdot \left(1 - \hat y_j^{(k)}\right)\cdot \left[-(y_j^{(k)} - \hat y_j^{(k)})\right] \cdot \mathcal W_{hj} \cdot \left[-b_h \cdot (1 - b_h)\right] \\ & = - \eta \cdot [b_h \cdot(1 -b_h)] \cdot \sum_{j=1}^l \left[\mathcal W_{hj} \cdot \hat y_j^{(k)} \cdot (1 - \hat y_j^{(k)})\cdot (y_j^{(k)} - \hat y_j^{(k)})\right] \end{aligned}$
$v_{ih}^{(k)}$ 的权重更新量 $△vih(k)\triangle v_{ih}^{(k)}$ ：
需要注意的点： $∂bh(k)∂αh\begin{aligned}\frac{\partial b_h^{(k)}}{\partial \alpha_h}\end{aligned}$ 与 $∂bh(k)∂γh\begin{aligned}\frac{\partial b_h^{(k)}}{\partial \gamma_h}\end{aligned}$ 都是 $Sigmoid\text{Sigmoid}$ 函数的导数，只不过差一个负号; $∂y^j(k)∂βj\begin{aligned}\frac{\partial \hat y_j^{(k)}}{\partial \beta_j}\end{aligned}$ 和 $∂y^j(k)∂θj\begin{aligned}\frac{\partial \hat y_j^{(k)}}{\partial \theta_j}\end{aligned}$ 也是如此。
$△vih(k)=−η⋅∂E(k)∂vih(k)=−η⋅∂E(k)∂αh⋅∂αh∂vih(k)=−η⋅∑j=1l(∂E(k)∂y^j(k)⋅∂y^j(k)∂βj⋅∂βj∂bh(k)⋅∂bh(k)∂αh)⋅∂αh∂vih(k)=η⋅[bh⋅(1−bh)]⋅∑j=1l[Whj⋅y^j(k)⋅(1−y^j(k))⋅(yj(k)−y^j(k))]⋅xi(k)\begin{aligned} \triangle v_{ih}^{(k)} & = - \eta \cdot \frac{\partial \mathcal E^{(k)}}{\partial v_{ih}^{(k)}} \\ & = -\eta \cdot \frac{\partial \mathcal E^{(k)}}{\partial \alpha_h} \cdot \frac{\partial \alpha_h}{\partial v_{ih}^{(k)}} \\ & = -\eta \cdot \sum_{j=1}^l \left( \frac{\partial \mathcal E^{(k)}}{\partial \hat y_j^{(k)}} \cdot \frac{\partial \hat y_{j}^{(k)}}{\partial \beta_j} \cdot \frac{\partial \beta_j}{\partial b_h^{(k)}} \cdot \frac{\partial b_h^{(k)}}{\partial \alpha_h}\right) \cdot \frac{\partial \alpha_h}{\partial v_{ih}^{(k)}} \\ & = \eta \cdot [b_h \cdot(1 -b_h)] \cdot \sum_{j=1}^l \left[\mathcal W_{hj} \cdot \hat y_j^{(k)} \cdot (1 - \hat y_j^{(k)})\cdot (y_j^{(k)} - \hat y_j^{(k)})\right] \cdot x_i^{(k)} \end{aligned}$

图示描述反向传播过程

假设第 $t$ 次迭代隐藏层神经元 $b_h$ 、输出层神经元 $y_j$ 的正向执行过程表示如下：
依然以某一具体样本 $(x(k),y(k))∈D(x^{(k)},y^{(k)}) \in \mathcal D$ ，并以预测结果的第 $j$ 个分量 $y_j^{(k)}$ 的反向传播作为示例进行描述.
${αh=∑i=1dvih(k)⋅xi(k)bh(k)=Sigmoid(αh−γh)βj=∑h=1qWhj⋅bhy^j(k)=Sigmoid(βj−θj)\begin{aligned} \begin{cases} \alpha_h = \sum_{i=1}^d v_{ih}^{(k)} \cdot x_i^{(k)} \\ b_h^{(k)} = \text{Sigmoid}(\alpha_h - \gamma_h) \\ \beta_j = \sum_{h=1}^q \mathcal W_{hj} \cdot b_h \\ \hat y_j^{(k)} = \text{Sigmoid}(\beta_j - \theta_j) \end{cases} \end{aligned}$

首先，针对预测结果 $y^j(k)\hat y_j^{(k)}$ 和真实标签 $y_j^{(k)}$ 之间的误差结果对 $y^j(k)\hat y_j^{(k)}$ 的梯度 $∂E(k)∂y^j(k)\begin{aligned}\frac{\partial \mathcal E^{(k)}}{\partial \hat y_j^{(k)}}\end{aligned}$ 进行计算：
梯度 $∂E(k)∂y^j(k)\begin{aligned}\frac{\partial \mathcal E^{(k)}}{\partial \hat y_j^{(k)}}\end{aligned}$ 计算完成后，神经元 $y_j$ 获取相应梯度，将该梯度传递给阈值 $θj\theta_j$ 以及各隐藏层神经元与 $y_j$ 的连接权重 $∂E(k)∂θj,∂E(k)∂Whj(k)\begin{aligned}\frac{\partial \mathcal E^{(k)}}{\partial \theta_j},\frac{\partial \mathcal E^{(k)}}{\partial \mathcal W_{hj}^{(k)}}\end{aligned}$ ：
这里以隐藏层神经元 $b_h$ 为关注点描述反向传播过程，因而仅点亮一条连接权重 $Whj\mathcal W_{hj}$ ;但实际上与 $y_j$ 相关联的权重均被点亮。
传递到神经元 $b_h$ 后，首先对该神经元的预测结果 $b_h^{(k)}$ 求解梯度；紧接着对神经元的阈值 $γh\gamma_h$ 和连接权重 $αh\alpha_h$ 求解梯度 $∂E(k)∂bh(k),∂E(k)∂γh,∂E(k)∂αh\begin{aligned}\frac{\partial \mathcal E^{(k)}}{\partial b_h^{(k)}},\frac{\partial \mathcal E^{(k)}}{\partial \gamma_h},\frac{\partial \mathcal E^{(k)}}{\partial \alpha_h}\end{aligned}$ ：

最终，当梯度传递至 $αh\alpha_h$ 后，对输入层与隐藏层的连接权重求解梯度 $∂E(k)∂vih(k)\begin{aligned}\frac{\partial \mathcal E^{(k)}}{\partial v_{ih}^{(k)}}\end{aligned}$ ：
这里以 $i = 2$ 为例，实际上所有与神经元 $b_h$ 相关联的权重均被点亮。

至此，经过上述过程后，所有神经元结点以及相关权重，均更新了梯度。而且该示例中每个隐藏层的神经元结点每次计算过程中均更新了 $l$ 次权重，这与下一层结点(这里是指输出层结点)数量相关。