当前位置：首页 > news >正文

机器学习7——神经网络上

news 2025/6/30 12:49:06

神经网络

Intro

人工神经网络（Artificial Neural Network，ANN）是一种计算模型，灵感来源于生物神经系统，特别是人脑的工作方式。

其核心思想：

用**大量简单的“神经元”**作为信息处理单元；
这些神经元通过连接（连接权重）形成网络；
网络通过学习数据中的规律（训练），实现识别、预测、控制等功能。

两个关键特点：

知识是通过学习过程获得的（类似于人类通过经验积累知识）；
知识保存在连接权重中（类似于生物突触的可塑性）。

神经网络的类型

分类方式	说明
结构	前馈网络（Feedforward）、反馈网络（Recurrent）
学习方法	有监督学习、无监督学习
信号类型	连续、离散

人工神经元的结构（The Neuron）

输入权重（Synapses）

每个输入 $x_j$ 通过一个连接权重 $w_j$ 与神经元连接：
$\sum_{j=1}^{m} w_j x_j$
这里 $u$ 是输入的加权和。

偏置项（Bias）

偏置 $b$ 是一个外部常量项，相当于控制“阈值”：
$v = u + b$
可以看作是加了一个固定值的输入，常被写成一个输入 $x_0 = 1$ ，其权重为 $b$ 。

3. 激活函数（Activation Function）

作用：将加权输入 $v$ 转换为输出 $\varphi(v)$ ，用于引入非线性。

激活函数类型（Activation Functions）

1. 线性函数

$f (x) = a x$

线性，无非线性表达能力，通常不单独使用。

2. 阶跃函数（Step Function）

$\begin{cases} a_1, & x \geq \theta \\ a_2, & x < \theta \end{cases}$

用来模拟是否“激活”，类似生物神经元是否触发。

3. 斜坡函数（Ramp Function）

$\begin{cases} \alpha, & x \geq \theta \\ x, & -\theta < x < \theta \\ -\alpha, & x \leq -\theta \end{cases}$

是阶跃函数的“平滑版本”，防止学习不稳定。

4. Logistic 函数（Sigmoid 函数）

$\frac{1}{1 + e^{-\lambda x}}$

输出范围： $(0, 1)$
可导，适合反向传播算法
非零导数 → 可学习

5. 双曲正切函数（Tanh）

$\frac{e^{\lambda x} - e^{-\lambda x}}{e^{\lambda x} + e^{-\lambda x}} = \tanh(\lambda x)$

输出范围： $(- 1, 1)$
零中心 → 通常收敛更快

6. 高斯函数（Gaussian）

$e^{-x^2 / \sigma^2}$

常用于径向基函数网络（RBFN），对离中心越远的点响应越弱。

感知机

感知机模型定义

感知机接受一个向量作为输入：
$\mathbf{x} = (x_0, x_1, x_2, ..., x_m)^T, \quad x_0 = 1 \ (\text{bias})$
使用线性函数生成输出：
$\text{sgn}(\mathbf{w}^T \mathbf{x})$
其中权重向量：
$\mathbf{w} = (w_0, w_1, ..., w_m)^T$
如果：

$\mathbf{x} \in T_1 \Rightarrow d = +1$
$\mathbf{x} \in T_2 \Rightarrow d = -1$

则目标是：
$\text{sgn}(\mathbf{w}^T \mathbf{x}) = d$
即正确将 $T_1$ 、 $T_2$ 分类（前提是线性可分！！！）。

几何直观

感知机本质上是在高维空间中寻找一个超平面 $\mathbf{w}^T \mathbf{x} = 0$ （ $\mathbf{w}$ 是该平面的法向量，该向量乘所有正样本应当大于0，乘所有负样本应该小于0）：

使得所有正样本 $T_1$ 落在一侧
所有负样本 $T_2$ 落在另一侧

这个分界面把数据线性划分（线性可分假设是成立前提）。

在这里插入图片描述

上面的图中的w是有效的，而下图中的w是错误的（乘以正样本却小于0）。我们应该如何调整这个w？

学习规则（Learning Rule）

我们发现，在w错误地把正样本分类为负样本时，把错误的w向量加上一个跟x同向的向量，可以让w往正确的方向靠近。
在w把负样本错误地分类为正样本时，即w与x同向时，应该在w上减去一个跟x同向的向量，可以让w往正确的方向靠近。
形式化地定义，我们有：

情况 1：正样本被错分为负样本
- $d = + 1$ ，但 $y = - 1$
- 所以： $\mathbf{w}^T \mathbf{x} < 0$
- 我们希望 $\mathbf{w}^T \mathbf{x} \uparrow$ ，也就是让 $\mathbf{w}$ 更接近 $\mathbf{x}$ 方向 → 朝 $\mathbf{x}$ 方向更新
- 所以：
$\Delta \mathbf{w} = +\alpha \mathbf{x}$

情况 2：负样本被错分为正样本
- $d = - 1$ ，但 $y = + 1$
- 所以： $\mathbf{w}^T \mathbf{x} > 0$
- 我们希望 $\mathbf{w}^T \mathbf{x} \downarrow$ ，也就是让 $\mathbf{w}$ 更远离 $\mathbf{x}$ → 朝 $-\mathbf{x}$ 方向更新
- 所以：
$\Delta \mathbf{w} = -\alpha \mathbf{x}$
更一般地，我们可以这么定义 $\Delta w$ :
$\begin{aligned} & \Delta w_i(t)=\eta r_i x_i(t) \\ & r_i = d_i - y_i = \begin{cases} 0 & d_i = y_i \quad \text{correct} \\ +2 & d_i = 1, y_i = -1 \quad \text{incorrect} \\ -2 & d_i = -1, y_i = 1 \quad \text{incorrect} \end{cases} \\ & \Delta w_i(t)=\eta\left(d_i-y_i\right) x_i(t) \end{aligned}$

感知机收敛的相关证明

作者：xuxinshun@sdu.edu.cn (Xin-Shun Xu)，School of Software,Shandong University, Jinan 250101, China

1. 感知机收敛定理（Perceptron Convergence Theorem）

假设两个类别 $C_1$ 和 $C_2$ 是线性可分的。存在一个权重向量 $w$ ，使得我们可以表述如下：
$\begin{align*} & w^{T} x > 0 \quad \text{对于属于类别 } C_1 \text{ 的每个输入向量 } x \tag{1} \\ & w^{T} x \leq 0 \quad \text{对于属于类别 } C_2 \text{ 的每个输入向量 } x \end{align*}$
更新规则如下：

如果训练集中第 $n$ 个样本 $x (n)$ 被当前权重向量 $w (n)$ 正确分类，则不进行权重的修正。也就是说：

$\begin{align*} & w(n+1)=w(n) \quad \text{若 } w^{T} x(n) > 0 \text{ 且 } x(n) \text{ 属于 } C_1 \tag{2} \\ & w(n+1)=w(n) \quad \text{若 } w^{T} x(n) \leq 0 \text{ 且 } x(n) \text{ 属于 } C_2 \end{align*}$

否则，感知机的权重向量按照如下规则更新：

$\begin{align*} & w(n+1)=w(n)-\eta(n) x(n) \quad \text{若 } w^{T} x(n) > 0 \text{ 且 } x(n) \text{ 属于 } C_2 \\ & w(n+1)=w(n)+\eta(n) x(n) \quad \text{若 } w^{T} x(n) \leq 0 \text{ 且 } x(n) \text{ 属于 } C_1 \tag{3} \end{align*}$

接下来，我们将证明一个固定增量（fixed-increment）自适应规则的收敛性，对其设定为： $\eta = 1$ 。此外，我们假设初始条件 $w (0) = 0$ 。这意味着对于所有的 $x$ ，我们有 $w x = 0$ 。因此，对于所有属于 $C_1$ 的 $x$ ，我们有：
$\quad \text{对于 } x(n) \in C_1 \tag{4}$
如果在类别 $C_1$ 中存在 $n$ 个这样的向量，则我们有：
$w(n+1)=x(1)+x(2)+\ldots+x(n) \tag{5}$
由于假设 $C_1$ 与 $C_2$ 是线性可分的，存在一个解向量 $w_o$ ，使得对所有属于 $C_1$ 的向量 $x (n)$ 有 $w^T x(n) > 0$ 。于是我们可以定义一个正数 $\alpha$ 为：
$\alpha=\min _{x(n) \in C_1} w_{o}^{T} x(n) \tag{6}$
若将公式 (5) 的两边乘以行向量 $w_o^T$ ，我们得到：
$w_{o}^{T} w(n+1)=w_{o}^{T} x(1)+w_{o}^{T} x(2)+\ldots+w_{o}^{T} x(n) \tag{7}$
因此，结合公式 (6) 的定义，我们有：
$w_{o}^{T} w(n+1) \geq n \alpha \tag{8}$
接下来我们使用柯西-施瓦茨不等式（Cauchy-Schwarz Inequality）。给定两个向量 $w_o$ 和 $w (n + 1)$ ，不等式表示为：
$\left\|w_{o}\right\|^{2}\|w(n+1)\|^{2} \geq\left[w_{o}^{T} w(n+1)\right]^{2} \tag{9}$
结合公式 (8) 和 (9)，我们得到：
$\left\|w_{o}\right\|^{2}\|w(n+1)\|^{2} \geq n^{2} \alpha^{2} \tag{10}$
或者，等价地：
$\|w(n+1)\|^{2} \geq \frac{n^{2} \alpha^{2}}{\left\|w_{o}\right\|^{2}} \tag{11}$
接下来，我们采用另一条推导路径。首先，我们将公式 (4) 重写为以下形式：
$\quad \text{对于 } k=1, \ldots, n \text{ 且 } x(k) \in C_1 \tag{12}$
对公式 (12) 的两边求欧几里得范数的平方，得到：
$\|w(k+1)\|^{2}=\|w(k)\|^{2}+\|x(k)\|^{2}+2 w^{T}(k) x(k) \tag{13}$
但由于 $w^T(k) x(k) \leq 0$ ，我们可推出：
$\|w(k+1)\|^{2} \leq \|w(k)\|^{2} + \|x(k)\|^{2} \tag{14}$
将这些不等式从 $k = 1$ 到 $n$ 相加，并利用初始条件 $w (0) = 0$ ，我们得到：
$\|w(n+1)\|^{2} \leq \sum_{k=1}^{n}\|x(k)\|^{2} \tag{15}$
然后，我们定义一个正数 $\beta$ 为：
$\beta=\max _{x(k) \in C_1}\|x(k)\|^{2} \tag{16}$
结合公式 (15) 和 (16)，我们有：
$\|w(n+1)\|^{2} \leq n \beta \tag{17}$
这个结果与公式 (11) 相冲突。实际上，我们可以说 $n$ 不可能大于某个最大值 $n_{\text{max}}$ ，使得公式 (11) 和 (17) 同时取等号。即：
$n_{\max} \text{ 是满足如下方程的解：}$
解得 $n_{\max}$ （在已知解向量 $w_o$ 的前提下），我们得到：
$n_{\max} = \frac{\beta \|w_o\|^2}{\alpha^2} \tag{19}$

2. 感知机与高斯环境下贝叶斯分类器的关系

2.1 贝叶斯分类器

在贝叶斯分类器中，我们最小化的是平均风险，记作 $\mathcal{R}$ 。对于一个二分类问题（类别为 $C_1$ 和 $C_2$ ），风险可以定义为：
$\begin{align*} \mathcal{R} = & c_{11} p_{1} \int_{\mathcal{X}_{1}} p_{x}(x \mid C_{1}) dx + c_{22} p_{2} \int_{\mathcal{X}_{2}} p_{x}(x \mid C_{2}) dx \tag{20} \\ & + c_{21} p_{1} \int_{\mathcal{X}_{2}} p_{x}(x \mid C_{1}) dx + c_{12} p_{2} \int_{\mathcal{X}_{1}} p_{x}(x \mid C_{2}) dx \end{align*}$
其中 $c_{11} < c_{21}$ ， $c_{22} < c_{12}$ 。

它可简化为：
$\begin{align*} \mathcal{R} = & c_{21} p_{1} + c_{22} p_{2} \tag{21} \\ & + \int_{\mathcal{X}_{1}} \left[ p_{2}(c_{12}-c_{22}) p_{x}(x \mid C_{2}) - p_{1}(c_{21}-c_{11}) p_{x}(x \mid C_{1}) \right] dx \end{align*}$
变换后，贝叶斯分类器可以表述如下：若
$p_{1}(c_{21} - c_{11}) p_{x}(x \mid C_{1}) > p_{2}(c_{12} - c_{22}) p_{x}(x \mid C_{2}) \tag{22}$
则将 $x$ 判为 $C_1$ ，否则判为 $C_2$ 。

为了简化，定义：
$\Lambda(x) = \frac{p_{x}(x \mid C_{1})}{p_{x}(x \mid C_{2})} \tag{23}$
以及
$\xi = \frac{p_{2}(c_{12} - c_{22})}{p_{1}(c_{21} - c_{11})} \tag{24}$
则：若 $\Lambda(x) > \xi$ ，判为 $C_1$ ，否则为 $C_2$ 。

2.2 高斯分布下的贝叶斯分类器

考虑一个二分类问题，其特征分布为高斯分布，其均值和协方差矩阵如下：
$\begin{array}{ll} \text{类别 } C_1: & E[X] = \mu_1 \\ & E[(x - \mu_1)(x - \mu_1)^T] = C \tag{25} \\ \text{类别 } C_2: & E[X] = \mu_2 \\ & E[(x - \mu_2)(x - \mu_2)^T] = C \end{array}$
假设 $C$ 是非奇异的（即可逆），于是有：
$p_{x}(x \mid C_i) = \frac{1}{(2\pi)^{m/2} |\det(C)|^{1/2}} \exp\left( -\frac{1}{2}(x - \mu_i)^T C^{-1}(x - \mu_i) \right), i=1,2 \tag{26}$
其中 $m$ 是 $x$ 的维度。进一步假设：
$p_1 = p_2 = \frac{1}{2} \tag{27}$
以及：
$c_{21} = c_{12}, \quad c_{11} = c_{22} = 0 \tag{28}$
将公式 (26) 代入公式 (23)，再取自然对数，得：
$\begin{align*} \log \Lambda(x) & = -\frac{1}{2}(x - \mu_1)^T C^{-1}(x - \mu_1) + \frac{1}{2}(x - \mu_2)^T C^{-1}(x - \mu_2) \tag{29} \\ & = (\mu_1 - \mu_2)^T C^{-1} x + \frac{1}{2} \left( \mu_2^T C^{-1} \mu_2 - \mu_1^T C^{-1} \mu_1 \right) \end{align*}$
将公式 (27) 和 (28) 代入公式 (24)，再取对数：
$\log \xi = 0 \tag{30}$
由公式 (29) 和 (30)，我们发现贝叶斯分类器在该问题下是一个线性分类器，可描述如下：
$w^T x + b \tag{31}$
其中：
$\begin{align*} y &= \log \Lambda(x) \\ w &= C^{-1} (\mu_1 - \mu_2) \tag{32} \\ b &= \frac{1}{2} \left( \mu_2^T C^{-1} \mu_2 - \mu_1^T C^{-1} \mu_1 \right) \end{align*}$
从上述可知，在这种情形下，贝叶斯分类器是一个感知机。

最小均方学习（Least Mean Square Learning, LMS）

什么是最小均方学习（LMS）？

LMS 是一种经典的神经网络权重更新方法，目标是：

最小化输出与目标之间的误差平方和

即最小化以下损失函数（或称代价函数）：
$E(\mathbf{w}) = \frac{1}{2} \sum_{k=1}^{p} \left(d^{(k)} - y^{(k)}\right)^2 = \frac{1}{2} \sum_{k=1}^{p} \left(d^{(k)} - \mathbf{w}^T \mathbf{x}^{(k)}\right)^2 = \frac{1}{2} \sum_{k=1}^{p} \left(d^{(k)} - \sum_{l=1}^{m} w_l x_l^{(k)}\right)^2$
其中：

$\mathbf{w} = (w_1, w_2, ..., w_m)^T$ ：权重向量
$\mathbf{x}^{(k)} = (x_1^{(k)}, ..., x_m^{(k)})^T$ ：第 $k$ 个样本
$d^{(k)}$ ：样本的期望输出（目标）
$y^{(k)} = \mathbf{w}^T \mathbf{x}^{(k)}$ ：模型输出
$p$ ：样本总数

梯度下降法：如何“下山”？

目标：找到使 $E(\mathbf{w})$ 最小的权重 $\mathbf{w}$

梯度方向：

梯度是函数增长最快的方向，向梯度反方向走就是下降最快的方向。
梯度定义：

$\nabla f = \left( \frac{\partial f}{\partial w_1}, \frac{\partial f}{\partial w_2}, ..., \frac{\partial f}{\partial w_m} \right)^T$

梯度下降更新规则：

$\Delta \mathbf{w} = -\eta \nabla f$

其中 $\eta > 0$ 是学习率，控制“走多远”。

最小均方误差的梯度推导

对损失函数 $E(\mathbf{w})$ 求偏导：
$\frac{\partial E}{\partial w_j} = -\sum_{k=1}^{p} \left(d^{(k)} - \mathbf{w}^T \mathbf{x}^{(k)}\right) x_j^{(k)} = -\sum_{k=1}^{p} \delta^{(k)} x_j^{(k)}$
其中：

$\delta^{(k)} = d^{(k)} - y^{(k)}$ ：误差

梯度形式：
$\nabla_{\mathbf{w}} E(\mathbf{w}) = \begin{pmatrix} \frac{\partial E}{\partial w_1} \\ \vdots \\ \frac{\partial E}{\partial w_m} \end{pmatrix} = - \sum_{k=1}^{p} \delta^{(k)} \mathbf{x}^{(k)}$