当前位置：首页 > news >正文

深度学习零基础入门（4）-卷积神经网络架构

news 2025/8/5 13:53:09

许久不见~
本节我们延续上一节的话题来看看卷积神经网络的架构，看看具体的卷积、池化等操作

卷积神经网络详解：从基础操作到整体架构

一、卷积操作：特征提取的核心

卷积是卷积神经网络（CNN）的核心操作，灵感来源于人类视觉系统。在图像处理中，卷积可表示为：

$\sum_{m}\sum_{n} I(i+m,j+n) \cdot K(m,n)$

其中：

$I$ 是输入图像矩阵
$K$ 是卷积核（滤波器）
$(i, j)$ 是输出位置坐标

卷积过程图解：
在这里插入图片描述

计算示例（左上角位置）：
$(0 \times 0) + (1 \times 1) + (3 \times 2) + (4 \times 3) = 19$
简单来说就是对应相乘然后求和

卷积核本质是特征检测器，不同核可提取边缘、纹理等特征：

垂直边缘检测核： $[10−110−110−1]\begin{bmatrix}1 & 0 & -1 \\ 1 & 0 & -1 \\ 1 & 0 & -1\end{bmatrix}$
水平边缘检测核： $[111000−1−1−1]\begin{bmatrix}1 & 1 & 1 \\ 0 & 0 & 0 \\ -1 & -1 & -1\end{bmatrix}$

至于特征是什么，你就当做是属性或者本质来理解吧

二、步幅（Stride）：控制计算密度

步幅定义卷积核每次移动的像素数。设步幅为 $S$ ：

$S = 1$ ：滑动间隔1像素（输出尺寸最大）
$S = 2$ ：滑动间隔2像素（输出尺寸减半）

步幅影响图解：

S=1时移动路径：    S=2时移动路径：
→→→→→            → → → 
↓↓             ↓   ↓
→→→→→            → → → 
↓↓
→→→→→

数学意义：步幅增加会降低特征图分辨率，但能显著减少计算量，适用于深层网络。

三、填充（Padding）：边界信息保护

填充是在输入图像边缘添加像素（通常为0），解决两个核心问题：

边界信息丢失（角落像素参与计算次数少）
输出尺寸收缩

常用填充模式：

类型	公式	输出尺寸	特点
Valid	$P = 0$	$W−FS+1\frac{W-F}{S}+1$	无填充，输出缩小
Same	$P=F−12P=\frac{F-1}{2}$	$W$	输入输出同尺寸

填充量 $P$ 的计算：
$\left\lfloor \frac{F-1}{2} \right\rfloor$
其中 $F$ 为卷积核尺寸

填充效果示例（3x3核，Same填充）：

原始输入：    填充后（P=1）：
1 2 3       0 0 0 0 0
4 5 6   →   0 1 2 3 0
7 8 9       0 4 5 6 00 7 8 9 00 0 0 0 0

四、池化层：空间信息压缩

池化层通过降采样减少参数量，增强特征不变性。

1. 最大值池化（Max Pooling）

$\text{输出}(i,j) = \max_{m,n \in \mathcal{R}} \text{输入}(i×S+m, j×S+n)$

可以这样来理解，在一个区域内挑选最大的

历史：1980年福岛邦彦在Neocognitron首次提出，1998年LeNet-5正式应用
特点：保留显著特征，对噪声鲁棒

2. 平均池化（Average Pooling）

$\text{输出}(i,j) = \frac{1}{|\mathcal{R}|} \sum_{m,n \in \mathcal{R}} \text{输入}(i×S+m, j×S+n)$
平均池化就是将这个区域内的值求平均数

历史：2012年AlexNet首次大规模应用，缓解过拟合
特点：保留整体特征分布，平滑特征图

池化过程图解（2x2池化窗口，S=2）：

输入矩阵：        最大值池化：     平均池化：
[1 5 0 2]        [5  2]         [3.0  1.5]
[3 2 4 1]   →    [4  3]         [3.5  2.5]
[7 0 3 5]        [7  5]         [3.5  4.0]
[2 6 1 4]

在这里我们将池化的核叫做感受眼池化只算一种操作而不是卷积网络中的一层，但是它依旧会影响输入输出的特征图大小

五、输出特征图计算通式

给定参数：

输入尺寸： $\times H \times D_{in}$
卷积核尺寸： $FH \times FW \times D_{in}$
卷积核通道数: $D$
步幅： $S$
填充： $P$

输出特征图尺寸：通道数由卷积核的通道数决定
在这里插入图片描述

计算示例：

输入： $224 \times 224 \times 3$ 图像
卷积核： $\times 7 \times 3$ ， $K = 64$
$S = 2$ ， $P = 3$
输出： $Wout=⌊(224−7+6)/2⌋+1=112W_{out} = \lfloor(224-7+6)/2\rfloor+1 = 112$
最终输出： $112 \times 112 \times 64$

六、多通道卷积运算

多通道卷积是CNN处理彩色图像的关键，运算过程分三步：

输入结构： $D_{in}$ 通道输入（如RGB三通道）
$\text{输入} \in \mathbb{R}^{W \times H \times D_{in}}$
卷积核结构：每个卷积核包含 $D_{in}$ 个通道的权重
$K_k \in \mathbb{R}^{F \times F \times D_{in}} \quad (k=1,2,...,K)$
计算过程：
$\text{输出}_k(i,j) = \sum_{d=1}^{D_{in}} \left( \sum_{m=0}^{F-1} \sum_{n=0}^{F-1} I_d(i+m,j+n) \cdot K_k^{(d)}(m,n) \right) + b_k$

多通道卷积示意图：

输入通道（3通道）      卷积核组（2个核）
[ R ]               [ K1_R ] [ K2_R ]
[ G ]          *    [ K1_G ] [ K2_G ]  = 输出特征图（2通道）
[ B ]               [ K1_B ] [ K2_B ]

为什么会是这样呢？对于输入的3通道，每一个通道会和卷积核的一个通道进行卷积计算然后进行叠加，得到一个通道的输出，卷积核有多少的通道就会进行多少次这样的计算，因此由卷积核的通道（核的数量）决定本层的输出通道数

七、卷积神经网络整体架构

典型CNN包含以下层级结构：

1. 输入层

接收 $\times H \times C$ 张量
预处理：归一化、数据增强

2. 卷积块（重复N次）

这一块代码你可能还看不懂，没有关系，我们下一节具体来讲解

# 典型卷积块代码实现
def conv_block(x, filters, kernel_size=3):x = Conv2D(filters, kernel_size, padding='same')(x)x = BatchNormalization()(x)x = ReLU()(x)return x

卷积层：提取局部特征
激活函数：引入非线性（常用ReLU： $f(x)=max⁡(0,x)f(x)=\max(0,x)$ ）
批归一化：加速训练

3. 池化层

空间降维：通常 $2×22\times2$ 窗口， $S = 2$
位置：每1-2个卷积块后

4. 全连接层

特征整合：将3D特征展平为1D向量
$\text{Flatten}: \mathbb{R}^{W\times H\times D} \to \mathbb{R}^{N} \quad (N=W\times H\times D)$
分类输出：Softmax激活函数

5. 经典架构演进

网络	创新点	深度	Top-5错误率
LeNet-5 (1998)	首个实用CNN架构	7层	-
AlexNet (2012)	ReLU/Dropout/多GPU训练	8层	16.4%
VGG (2014)	3x3小卷积核堆叠	16-19层	7.3%
ResNet (2015)	残差连接解决梯度消失	50-152层	3.57%

现代CNN架构特征：

深度堆叠：16~100+层
残差连接： $H (x) = F (x) + x$
瓶颈结构：1x1卷积降维
注意力机制：通道/空间注意力
轻量化设计：深度可分离卷积

八、端到端计算流程示例

以10x10 RGB图像分类为例：

输入层： $10 \times 10 \times 3$
卷积层1：32个 $3×33\times3$ 核，S=1，P=1 → $10 \times 10 \times 32$
池化层1：2x2 MaxPooling, S=2 → $\times 5 \times 32$
卷积层2：64个 $3×33\times3$ 核，S=1，P=1 → $\times 5 \times 64$
池化层2：2x2 MaxPooling, S=2 → $\times 2 \times 64$
全连接层：Flatten → $256$ 神经元
输出层：Softmax → 类别概率

参数量计算：

卷积层1： $(3 \times 3 \times 3 + 1) \times 32 = 896$
卷积层2： $(3 \times 3 \times 32 + 1) \times 64 = 18, 496$
全连接层： $(256 + 1) \times 10 = 2, 570$
总计：21,962参数（传统神经网络需数百万参数）

九、卷积神经网络优势

局部连接：每个神经元仅连接局部区域，大幅减少参数量
$\text{参数量} = (F \times F \times D_{in} + 1) \times D_{out}$
权值共享：同一卷积核在整张图像滑动，增强泛化能力
平移不变性：池化操作使特征对位置变化鲁棒
层次化特征：
- 浅层：边缘/纹理
- 中层：部件组合
- 深层：语义对象