当前位置：首页 > news >正文

李宏毅深度学习教程第4-5章 CNN卷积神经网络+RNN循环神经网络

news 2025/8/2 13:18:15

【2025版】9、第三节卷积神经网络CNN_哔哩哔哩_bilibili

李宏毅机器学习-RNN网络（中英文）_哔哩哔哩_bilibili

1. 卷积

2. 池化pooling 步幅stride 填充padding

3. CNN其他应用

4. RNN 循环神经网络

4.1 任务引入-需要“记忆”的任务

4.2 两种编码方式

4.3 隐状态

5. LSTM 长短期记忆网络

6. RNN的训练问题

7. RNN应用

分类问题：将分类结果表示为独热向量y 向量长度即识别物体种类数 用softmax 交叉熵描述损失

图像可描述为三维的像素张量 宽高通道

通道指同一样东西同一个/位置的多个维度/模式 如色彩RGB 三个颜色通道

卷积神经网络（Convolutional Neural Network, CNN）是一种专门用于处理网格结构数据（如图像、视频、语音）的深度学习模型，其核心是通过卷积层（Convolution Layer）和池化层（Pooling Layer）的堆叠来自动提取多层次特征。

1. 卷积

观察1. 我们要识别一个图片是否为小鸟可以不一定需要看他的整个图像

可以分别观察每个小块 有没有鸟嘴翅膀

观察2.翅膀可以出现在整张图的各个部分 所以对图像的不同位置可以共享参数 用同样的识别模型

所以我们可以运用 h*k的卷积核 把整个矩阵对应位置元素相乘再相加

根据这个原理可以手写一个corr2d的卷积函数。每个位置的Y 由h*w的X中的小矩阵乘以核k得到

import torch
from torch import nn
def corr2d(X, K):h, w = K.shapeY = torch.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1)) #输出的长宽for i in range(Y.shape[0]):for j in range(Y.shape[1]):Y[i, j] = (X[i:i + h, j:j + w] * K).sum()return Y
X = torch.ones((6, 8))
X[:, 2:6] = 0
K = torch.tensor([[1.0, -1.0]]) # 初始卷积核
Y = corr2d(X, K)

# 二维卷积层使用四维输入和输出格式（批量大小、通道、高度、宽度），
# 我们这个例子中批量大小和通道数都为1

如果用 nn.conv2d 可以一行把卷积写成

Y = nn.functional.conv2d(X, K.reshape((1, 1, 1, 2)), padding=0)

多输入输出通道不同模式下，矩阵变量的维度分别是这样的

然后我们试一下训练求卷积核K：之前是由X和K得到Y K设置为(1,-1)；现在我们用X和Y 推K

X = X.reshape((1, 1, 6, 8))
Y = Y.reshape((1, 1, 6, 7))
conv2d = nn.Conv2d(1,1, kernel_size=(1, 2), bias=False)
lr = 3e-2  # 学习率for i in range(10):Y_hat = conv2d(X)l = (Y_hat - Y) ** 2conv2d.zero_grad()l.sum().backward()# 迭代卷积核conv2d.weight.data[:] -= lr * conv2d.weight.gradif (i + 1) % 2 == 0:print(f'epoch {i+1}, loss {l.sum():.3f}, weight {conv2d.weight.data.reshape((1, 2))}')

训练结果可以看出随着loss下降 w越来越接近(1,-1)

2. 池化pooling 步幅stride 填充padding

做下采样（downsampling）把图像偶数列、奇数行都拿掉

虽然图像变为原来的 1/4 信息变少了但仍然能看出来图片是什么

所以我们在处理大量的数据时可以进行池化（pooling）的操作保持特征减少数据量

池化层可以用最大元素/平均值 分别为下面的两种

pool2d = nn.MaxPool2d(3, padding=1, stride=2) #最大 周围一圈补0
avgpool = nn.AvgPool2d(kernel_size=3, padding=1, stride=2, count_include_pad=False)# 平均 最后一个参数 补的0是否参与计算

stride步幅 核矩阵一个一个移动子矩阵还是太大可以通过扩大步幅移动比较多

padding填充 每次移动stride 结果行列数不能整除，就在原始矩阵最外面加上几层不影响结果的值

输入行数与输出行数有这样的数值关系，两边各填充P个后，移动S次长度为K的核