当前位置：首页 > news >正文

卷积神经网络学习（一）

news 2025/8/16 5:09:57

CNN应用对象是图像，CNN可被应用于的任务：
1、分类（classification）：对图像按其中的物体进行分类，如图像中有人与猫，则图像可分为两类。
2、目标检测（object detection）：即分类+定位（localization），不光要进行物体分类，还要用方框标识出物体。
3、语义分割（semantic segmentation）：对图像的每个像素进行分类。是目标检测的更进一步，不光要进行物体分类，还会很精细的标识出物体（用物体的所有像素来标识物体，而不是用方框）。
4、实例分割（instance segmentation）：语义分割的更进一步。对同一类物体的不同个体，语义分割不进行区分，实例分割可以区分。
5、全景分割（panoptic segmentation）：实例分割的更进一步。对背景也进行分割，如背景中的树，白云，蓝天也都被分割。

福岛邦彦（Kunihiko Fukushima）于1979年提出神经认知机，由于这项工作他于2021年获得了鲍尔奖，获奖理由：通过发明第一个深度卷积神经网络「Neocognitron」将神经科学原理应用于工程的开创性研究，这是对人工智能发展的关键贡献。
神经认知机中包含了卷积层与池化层。

1989年，Yann LeCun提出将反向传播应用于卷积神经网络。
1998年，Yann LeCun提出了LeNet-5用于手写数字识别。（第一个现代概念上的CNN）

2012年，Alex Krizhevsky提出了AlexNet，帮助其赢得了大规模视觉识别挑战赛（ILSVRC）。
与之前的卷积网络相比，其层数更多（深），采用GPU训练模型，ReLU激活函数，DropOut防止过拟合，局部响应归一化（Local Response Normalization）使下一层的输入更合理。

CNN由三种层组成：卷积层，池化层，全连接层。前两种用于提取特征，后一种用于特征分类。

几篇经典论文

Fukushima, K. (1975). Cognitron: A self-organizing multilayered neural network. Biological cybernetics, 20(3-4), 121-136.
Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological cybernetics, 36(4), 193-202.LeCun, Y. (1989). Generalization and network design strategies. Connectionism in perspective, 19(143-155), 18.
LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., & Jackel, L. D. (1989). Backpropagation applied to handwritten zip code recognition. Neural computation, 1(4), 541-551.
LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278-2324.Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 25.

三通道图像的卷积运算：
$O = f(I_1 * K_1 + I_2 * K_2 + I_3 * K_3 + b)$
$I_i$ 为图像的一个通道， $K_i$ 为卷积核， $*$ 为卷积运算， $b$ 为偏置是一个标量， $f$ 为激活函数， $O$ 为输出（特征图）。

卷积层常采用ReLU激活函数： $y = ma x (x, 0)$
ReLU是非线性函数，但其可以求导： $x\geq 0$ ，因此可进行反向传播。

池化也称下采样，用于缩减特征图的尺寸且保留特征图中最重要的信息。
池化操作常用的包括：最大，平均。
池化层不采用激活函数。

最后一层全连接层常采用softmax函数： $\vec{y} = softmax(\vec{x})$
$\vec{x},\vec{y}$ 为向量， $y_i = \frac{e^{x_i}}{\Sigma_k e^{x_k}}$
可以看出与ReLU不同，在计算一个元素时，还要考虑其他元素的大小。
输入 $[1, 2, 3, 4, 5]$ ，输出大约为 $[0.01, 0.03, 0.08, 0.2, 0.6]$ （输出总和为1，由于我这里近似表示导致总和非1）
softmax函数可导， $i = j$ 时， $\frac{dy_i}{d x_j} = y_i - y_i^2$ ； $i\neq j$ 时， $\frac{dy_i}{d x_j} = -y_i\cdot y_j$
手推softmax的求导 - Mr.Jian的文章 - 知乎 https://zhuanlan.zhihu.com/p/419862067