当前位置: 首页 > news >正文

0x06多层感知机

感知机

感知机形象的来看就是我们接触过的一个只有两个部分组成(输出和输入)组成的最简单的神经网络之一。

给定输入x,权重w和偏移b以及一个感知函数,感知机就能输出:

在这里插入图片描述

这个函数可以形象的用作二分类问题,o输出几就可以把他作为哪个类

但是单层感知机有一个很大的局限性就是——它只能解决线性可分的问题,也就是在超平面上只能构成一条线来区分数据

异或问题,也就是XOR问题就是非线性可分的问题,为了解决它,引出了多层感知机

多层感知机

使用多层感知机就可以在超平面上构造两条线将数据区分开了

在这里插入图片描述

我们使用多层感知机配合上softmax计算就能解决一些多分类的问题,这里把softmax也可以看做层一对一而非全连接的层,输出当前样本可能是哪一个类别的概率

在这里插入图片描述

在每个隐藏层中都会添加激活函数来对神经元做激活,常见的激活函数有SIGMOD、Relu

激活函数

激活函数都是非线性函数

SIGMOD函数能够将一个实数域的结果映射到(0,1)之间
sigmoid=11+exp(−x)sigmoid=\frac{1}{1+exp(-x)} sigmoid=1+exp(x)1
这个激活函数在以前比较常用,因为他会存在一些梯度丢失的问题导致现在也很少有人用了

目前比较常用的函数——Relu激活函数

他的数学表达很简单
ReLu(x)=max(x,0)ReLu(x)=max(x,0) ReLu(x)=max(x,0)
本质上是一个一段分段的非线性函数

代码实现

在本节书中的代码实现中,我们发现在每一个实现中为了实现一个多分类的多层个感知机,使用了softmax计算,但是实际上他并没有直接显式的使用softmax来计算每一个输出层神经元输出的值,而是在计CrossEntropyLoss中计算了softmax

# 构建模型
net = nn.Sequential(nn.Flatten(), # 该层的作用是将图片展开成一个一维的向量nn.Linear(784, 256),nn.ReLU(),nn.Linear(256, 10))def init_weights(m):if type(m) == nn.Linear:nn.init.normal_(m.weight, std=0.01)net.apply(init_weights); # 初始化参数# 设定一些超参数
batch_size, lr, num_epochs = 256, 0.1, 10
loss = nn.CrossEntropyLoss(reduction='none') # 表示直接返回n分样本的loss
trainer = torch.optim.SGD(net.parameters(), lr=lr) # 对参数使用SGD来优化# 加载数据以及训练
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)# 这是那个训练函数,以免不知道内部是怎么用的
def train_ch3(net, train_iter, test_iter, loss, num_epochs, updater):  #@save"""训练模型(定义见第3章)"""animator = Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0.3, 0.9],legend=['train loss', 'train acc', 'test acc'])for epoch in range(num_epochs):train_metrics = train_epoch_ch3(net, train_iter, loss, updater)test_acc = evaluate_accuracy(net, test_iter)animator.add(epoch + 1, train_metrics + (test_acc,))train_loss, train_acc = train_metricsassert train_loss < 0.5, train_lossassert train_acc <= 1 and train_acc > 0.7, train_accassert test_acc <= 1 and test_acc > 0.7, test_accdef train_epoch_ch3(net, train_iter, loss, updater):  #@save"""训练模型一个迭代周期(定义见第3章)"""# 将模型设置为训练模式if isinstance(net, torch.nn.Module):net.train()# 训练损失总和、训练准确度总和、样本数metric = Accumulator(3)for X, y in train_iter:# 计算梯度并更新参数y_hat = net(X)l = loss(y_hat, y)if isinstance(updater, torch.optim.Optimizer):# 使用PyTorch内置的优化器和损失函数updater.zero_grad()l.mean().backward()updater.step()else:# 使用定制的优化器和损失函数l.sum().backward()updater(X.shape[0])metric.add(float(l.sum()), accuracy(y_hat, y), y.numel())# 返回训练损失和训练精度return metric[0] / metric[2], metric[1] / metric[2]# metric的第一个元素是所有小批量损失函数值的总和。最后,我们将它除以样本数metric[2]来得到训练集上的平均损失。因此,返回的metric[0] / metric[2]是训练损失。
http://www.lryc.cn/news/44842.html

相关文章:

  • HTML是什么?HTML简介
  • Linux定时服务
  • sgi_stl源码学习,官方文档3.2.3String package字符串封装,未完待续
  • 从JavaScript到Java(一):基础知识
  • Android编舞者类Choreographer小结
  • 大专升本科难度大吗 需要考哪些科目
  • 考研复试-英语问答+解答
  • python 文件相关的操作 常用函数(读文件、写文件、文件的追加内容、修改文件内容、复制文件、按行读取文件、with open) json文件的读取
  • python 系列 06 -生成及解析二维码
  • 2023第二届中国绿色钢铁国际峰会
  • java 高考志愿填报系统Myeclipse开发mysql数据库web结构jsp编程计算机网页项目
  • 机器学习 vs 深度学习:了解两者的异同
  • 流行的 DAW编曲软件FL Studio 21 有什么新功能?
  • 【Java】抽象类和接口
  • Lora:Low-Rank Adapation of Large Language models
  • 洛谷-P8466 [Aya Round 1 A] 幻想乡扑克游戏
  • HBase性能优化方法总结
  • Linux基础内容(16)—— 文件系统
  • Vue自定义事件
  • Java SE 基础 (6) 第一个Java程序
  • P1004 [NOIP2000 提高组] 方格取数
  • Leetcode.1024 视频拼接
  • 20个华为路由器常用的Python脚本,网工写自动化脚本时候可以参考!
  • 【kubernetes云原生】k8s资源管理命令与Namespace使用详解
  • String源码深度刨析
  • FreeRTOS - 消息队列
  • 怎样正确做 Web 应用的压力测试?
  • php mysql大学生求职招聘资源信息网zkfdzkf67a8
  • 2023上海市“星光计划”职业院校技能大赛 网络安全竞赛试题任务书
  • Spring事务源码:创建代理类