当前位置: 首页 > news >正文

优化器与现有网络模型的修改

文章目录

    • 一、优化器是什么
    • 二、优化器的使用
    • 三、分类模型VGG16
    • 四、现有网络模型的修改

一、优化器是什么

优化器(Optimizer)是一个算法,用于在训练过程中调整模型的参数,以便最小化损失函数(Loss Function)。损失函数衡量的是模型预测值与真实值之间的差异,而优化器则负责通过更新模型的权重(Weights)和偏置(Biases)来减少这种差异。

利用得到的梯度,用优化器对梯度进行修正,从而得到整体误差降低的目的。

优化器Optimizer 所需要从参数:

在这里插入图片描述

参数解析:

  • model.parameters()是训练的模型
  • lr(LearningRate)是学习率,这是最核心的参数之一,它决定了在每次迭代中参数更新的步长。如果学习率太高,可能会导致训练过程中的梯度爆炸,使模型无法收敛,训练很不稳定;如果学习率太低,训练过程可能会变得非常缓慢。
    推荐一开始用大的lr值进行运算,到后面用小的lr再进行运算。
  • 动量(Momentum)往往是特定参数,是用于加速梯度下降方法,特别是在处理凸优化问题时。它通过在连续的迭代中累积梯度信息来帮助优化器克服局部最小值,并加快收敛速度。

二、优化器的使用

本文使用我的上一章内容神经网络内容进行续写,神经网络具体可跳转损失函数和反向传播

使用一下代码来进行梯度优化:

    optim.zero_grad()# 向后传播result_loss.backward()#这一步对数值进行调优optim.step()

整体代码如下:

import torch
import torchvision
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriterdataset = torchvision.datasets.CIFAR10("../data", train=False, transform=torchvision.transforms.ToTensor(), download= True)dataloader = DataLoader (dataset, batch_size = 1)
class Sen(nn.Module):def __init__(self):super(Sen,self).__init__()self.model1 = Sequential(Conv2d(3, 32, 5, 1, 2),MaxPool2d(2),Conv2d(32, 32, 5, padding=2),MaxPool2d(2),Conv2d(32, 64, 5, padding=2),MaxPool2d(2),Flatten(),Linear(1024, 64),Linear(64, 10))def forward(self, x):x = self.model1(x)return xloss = nn.CrossEntropyLoss()
sen = Sen()#随机梯度下降
optim = torch.optim.SGD(sen.parameters(), lr=0.01)for data in dataloader:imgs, tatgets = dataoutputs = sen(imgs)result_loss = loss(outputs, tatgets)#对参数进行梯度清零optim.zero_grad()# 向后传播result_loss.backward()#这一步对数值进行调优optim.step()

在未运行时的梯度没有值:
在这里插入图片描述
当运行一下:
在这里插入图片描述
可以看到每个参数节点的值被计算出来了。

当for循环第二次运行的时候,可以看到grad梯度已经被优化了:

在这里插入图片描述

通过反复循环,上图中的data数据,也就是loss就会越来越被优化。

上面的for循环其实是为数据的一次小循环,我们可以加上epoch 外嵌套 进行数据的一轮轮循环深度优化:

for epoch in range(20):running_loss = 0.0#这里只是进行了一次的学习for data in dataloader:imgs, tatgets = dataoutputs = sen(imgs)result_loss = loss(outputs, tatgets)#对参数进行梯度清零optim.zero_grad()# 向后传播result_loss.backward()#这一步对数值进行调优aoptim.step()#这一步就相当于所有误差的一个整体求和running_loss = running_loss + result_loss

整体代码:

import torch
import torchvision
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriterdataset = torchvision.datasets.CIFAR10("../data", train=False, transform=torchvision.transforms.ToTensor(), download= True)dataloader = DataLoader (dataset, batch_size = 1)
class Sen(nn.Module):def __init__(self):super(Sen,self).__init__()self.model1 = Sequential(Conv2d(3, 32, 5, 1, 2),MaxPool2d(2),Conv2d(32, 32, 5, padding=2),MaxPool2d(2),Conv2d(32, 64, 5, padding=2),MaxPool2d(2),Flatten(),Linear(1024, 64),Linear(64, 10))def forward(self, x):x = self.model1(x)return xloss = nn.CrossEntropyLoss()
sen = Sen()#随机梯度下降
optim = torch.optim.SGD(sen.parameters(), lr=0.01)#这里是进行一轮一轮的学习
for epoch in range(20):running_loss = 0.0#这里只是进行了一次的学习for data in dataloader:imgs, tatgets = dataoutputs = sen(imgs)result_loss = loss(outputs, tatgets)#对参数进行梯度清零optim.zero_grad()# 向后传播result_loss.backward()#这一步对数值进行调优aoptim.step()#这一步就相当于所有误差的一个整体求和running_loss = running_loss + result_lossprint(running_loss)

运行结果如下,可以看到,整个神经网络在所有的数据当中,它的误差之和如下:

在这里插入图片描述

在第一轮优化的时候,整个神经网络的误差之和是18779
在第二轮优化的时候,整个神经网络的误差之和是16205
在第三轮优化的时候,整个神经网络的误差之和是15448

可以看到,通过优化器的一轮轮优化,整体的loss值会一直降低,从而达到数据优化的效果。

三、分类模型VGG16

pytorch为我们提供了很多网络模型,其中包括分类模型VGG16

分类模型VGG16是基于ImageNet数据集进行训练的,所以我们需要下载ImageNet数据集

由于ImageNet数据集的内存为143g,会发生以下报错,需要我们自己去下载ImageNet数据集再放在根目录当中。
在这里插入图片描述

既然ImageNet数据集太大,那么就换一条思路,用一下方法加载vgg16

import torchvision.datasets
vgg16_false = torchvision.models.vgg16(pretrained=False)
vgg16_True = torchvision.models.vgg16(pretrained=True)
print('ok')

如果pretrained = True,说明这个数据集已经是训练好的了。
如果pretrained = False,说明这些参数是一个初始参数,没有在任何参数集上面进行训练。
如果progress = True,显示下载进度条
如果progress = Flase,则不显示下载进度条

vgg16_false = torchvision.models.vgg16(pretrained=False),这代码表示只是加载网络模型(也就是像之前的网络模型那样,只是加载模型,含有卷积,池化等,其中的参数都是默认的),所以它不需要下载。
vgg16_True = torchvision.models.vgg16(pretrained=True),这代码表示需要把网络模型参数进行一个下载,还要加载对应的参数。故它需要进行下载。
简单理解就是False不需要进行下载,而True需要进行下载。
VGG16将数据集分成1000个类。

print(vgg16_true)
输出结果:
在这里插入图片描述
在这里插入图片描述
看它把各种卷积层,最大池化都自动按参数下载好了。

常用的CIFAR10会把数据集分成10个类。
vgg16会把数据集分成1000个类,如上图的out_features=1000

四、现有网络模型的修改

方法:像上面得到的是out_features=1000,我们可以进行一个新的处理,通过Linear将输入是1000,而输出为10,从而达到降类的效果。

vgg16_true.add_module("add_linear", nn.Linear(1000, 10))

运行得到:
在这里插入图片描述
可以看到,在add_linear这里的out_features=10

如果要想类的改变在classifier当中,那么代码只需要添加上classifier

vgg16_true.classifier.add_module("add_linear", nn.Linear(1000, 10))

运行结果:
在这里插入图片描述
整体代码如下:

import torchvision.datasets
from torch import nnvgg16_false = torchvision.models.vgg16(pretrained=False)
vgg16_true = torchvision.models.vgg16(pretrained=True)print(vgg16_true)train_data = torchvision.datasets.CIFAR10("./data",train=True, transform=torchvision.transforms.ToTensor(),download=True)vgg16_true.classifier.add_module("add_linear", nn.Linear(1000, 10))

如果想直接在上面 (6)Linear 里面修改out_features,而不是新命名一个(add_linear)进行修改也是可以的

用vgg16_flase进行示范:

在没进行修改前print(vgg16_false)

运行结果:
在这里插入图片描述
直接在(6)Linear中修改out_features为10

代码:

vgg16_false.classifier[6] = nn.Linear(4096, 10)

运行结果:
在这里插入图片描述
可以看到out_features=10,从而成功修改现有的网络模型。

http://www.lryc.cn/news/441317.html

相关文章:

  • kafka 超详细的消息订阅与消息消费几种方式
  • C++ 第三讲:内存管理
  • LeeCode打卡第二十九天
  • 阿里云专业翻译api对接
  • 基于Spring Boot的能源管理系统+建筑能耗+建筑能耗监测系统+节能监测系统+能耗监测+建筑能耗监测
  • 大数据新视界 --大数据大厂之 Cassandra 分布式数据库:高可用数据存储的新选择
  • ROS第五梯:ROS+VSCode+C++单步调试
  • SLA 概念和计算方法
  • C++比大小游戏
  • PCIe进阶之TL:Memory, I/O, and Configuration Request Rules TPH Rules
  • 【初阶数据结构】一文讲清楚 “堆” 和 “堆排序” -- 树和二叉树(二)(内含TOP-K问题)
  • sqli-lab靶场学习(二)——Less8-10(盲注、时间盲注)
  • Dijkstra算法和BFS算法(单源最短路径)
  • 在WordPress中最佳Elementor主题推荐:专家级指南
  • 关于RabbitMQ消息丢失的解决方案
  • c语言动态内存分配
  • 零基础制作一个ST-LINK V2 附PCB文件原理图 AD格式
  • nginx基础篇(一)
  • 监控系列之-Grafana面板展示及制作
  • 值传递和地址传递
  • Docker vs. containerd 深度剖析容器运行时
  • ARM32 base instruction -- blx
  • sql数据库
  • 2024/9/19 408大题专训之五段式指令流水线题型总结
  • Android SPN/PLMN 显示逻辑简介
  • 1.使用 VSCode 过程中的英语积累 - File 菜单(每一次重点积累 5 个单词)
  • 什么是数字化转型升级?
  • JAVA开源项目 校园美食分享平台 计算机毕业设计
  • MyBatis 增删改查【后端 17】
  • 计算机网络(运输层)