当前位置: 首页 > news >正文

【机器学习合集】模型设计之残差网络 ->(个人学习记录笔记)

文章目录

  • 模型设计之残差网络
    • 1. 什么是残差结构
      • 1.1 网络加深遇到的优化问题
      • 1.2 short connect技术
    • 2. 残差网络及有效性理解
      • 2.1 残差网络
    • 3. 残差网络的发展
      • 3.1 密集残差网络
      • 3.2 更宽的残差网络(wide resnet)
      • 3.3 分组残差网络
      • 3.4 Dual Path Network
      • 3.5 加权残差网络
      • 3.6 预激活残差

模型设计之残差网络

  • 残差网络(Residual Network,通常缩写为ResNet)是一种深度神经网络架构,最早由微软研究员提出。ResNet的核心思想是通过引入残差块(Residual Blocks)来解决深度神经网络训练中的梯度消失和梯度爆炸问题,从而使得更深的网络能够更容易地训练和优化。
    以下是ResNet的主要特点和设计原则:
  1. 残差块(Residual Blocks)
    • 残差块是ResNet的基本构建单元,它包含了跳跃连接(skip connection)和残差映射(residual mapping)。
    • 跳跃连接允许信息在不同层之间直接传递,而不是通过多个非线性激活函数。这有助于避免梯度消失问题,使网络更容易训练。
    • 残差映射通过跳跃连接将输入特征与经过一些卷积层变换的特征相加,从而使网络学习残差(即差异),而不是完整的映射。这有助于网络捕捉更丰富的特征。
  2. 深度增加
    • ResNet允许非常深的网络,通常包含数十到数百个层。通过使用残差块,可以轻松增加网络的深度而不会导致性能下降。
    • 更深的网络有助于学习更复杂的特征,提高了模型的表现,特别适用于大规模图像分类等任务。
  3. 瓶颈结构
    • 为了减少参数量和计算复杂度,ResNet引入了瓶颈结构,其中每个残差块包含了一个较小的1x1卷积层、一个3x3卷积层和另一个1x1卷积层。这可以有效减少通道数和计算开销。
  4. 预训练和微调
    • ResNet模型通常通过在大规模图像数据集上进行预训练,然后微调到特定任务。这种迁移学习方法能够在数据有限的情况下取得很好的结果。
  5. 引入注意力机制
    • 可以将注意力机制引入ResNet以增强其性能,特别是在处理复杂的计算机视觉任务中。通过引入注意力机制,模型可以更好地关注重要的特征。
  • 总之,ResNet是一种强大的深度学习模型架构,已被广泛应用于计算机视觉任务,如图像分类、目标检测和图像分割。其核心思想是通过残差块来构建深层神经网络,从而克服深度神经网络中的梯度问题,实现更好的性能。

1. 什么是残差结构

1.1 网络加深遇到的优化问题

  • 网络达到一定深度后,梯度消散与爆炸带来的性能下降问题
  • 此前的解决方案:更好的优化方法,更好的初始化策略,BN层,ReLU激活函数等
    在这里插入图片描述

1.2 short connect技术

  • 在信号处理系统中,对输入数据进行中心化转换,即将数据减去均值,被广泛验证有利于加快系统的学习速度。
    在这里插入图片描述

早期验证

  • 2012年Tapani Raiko验证了shortcut connections和非线性变换提高了随机梯度下降算法的学习能力,并且提高了模型的泛化能力。
    在这里插入图片描述

  • 2015年Rupesh Kumar Srivastava提出highway network(残差的结构),借鉴了来自于LSTM的控制门的思想
    在这里插入图片描述

2. 残差网络及有效性理解

2.1 残差网络

  • 2015年何凯明等人提出deep residual network
    在这里插入图片描述

  • 缓解梯度消失问题,训练上1000层的模型
    在这里插入图片描述

  • F的梯度变化远远大于G,引入残差后的映射对输出的变化更敏感,这样有利于网络参数进行学习

  • 神经网络的退化(只有少量的隐藏单元对不同的输入改变它们的激活值)是难以训练深层网络根本原因所在,残差打破了网络的对称性,消除了网络中的奇点
    在这里插入图片描述

  • 残差网络可以看作是多个不同深度模型的集成,提高了泛化能力,”Residual networks behave like ensembles of relatively shallow networks“
    在这里插入图片描述

3. 残差网络的发展

3.1 密集残差网络

  • 提高多层通道的利用率,密集连接网络(DenseNet),增强各层的信息流动
    在这里插入图片描述

3.2 更宽的残差网络(wide resnet)

  • 通道数更大
    在这里插入图片描述

3.3 分组残差网络

  • 分组成若干个相同的子分支
    在这里插入图片描述

3.4 Dual Path Network

  • ResNext与DenseNet的结合
    在这里插入图片描述

3.5 加权残差网络

  • 残差网络中两个通道之间相加时一条已经激活,另一条没有,提出将激活函数提前到残差通道,然后进行加权融合的思路
    在这里插入图片描述

3.6 预激活残差

  • 改变卷积+归一化+激活函数(conv+bn+relu)的顺序
    在这里插入图片描述

注意:部分内容来自阿里云天池

http://www.lryc.cn/news/212916.html

相关文章:

  • GoLong的学习之路(十六)基础工具之Gin框架
  • VMware打开centos黑屏解决方法汇总
  • 5G物联网关相较有线网关有哪些独特优势
  • 【数据结构】顺序表的学习
  • 在NISQ小型计算机上执行大型并行量子计算的可能性
  • 考虑时空相关性的风电功率预测误差MATLAB代码
  • ASP.NET WebApi 极简依赖注入
  • 解决proteus仿真stm32,IIC通讯,IIC DEBUG无法显示从机应答信号的问题(问题情况为在8位数据后应答位显示?)
  • PHP判断闰年
  • 证照之星XE专业版下载专业证件照制作工具
  • VR全景图片如何制作?揭秘VR全景图片制作全流程
  • vue element el-table-column 循环示例代码
  • R语言生物群落(生态)数据统计分析与绘图实践技术应用
  • 有了 GPT,还需要付费咨询吗?
  • 如何搭建一台服务器?
  • [转载]C++序列化框架介绍和对比
  • 分类预测 | Matlab实现KOA-CNN-BiLSTM-selfAttention多特征分类预测(自注意力机制)
  • 浮点数和定点数(上):怎么用有限的Bit表示尽可能多的信息?
  • 一文详解汽车电子LIN总线
  • 论文阅读——GPT3
  • 星环科技分布式向量数据库Transwarp Hippo正式发布,拓展大语言模型时间和空间维度
  • 滚动条默认是隐藏的只有鼠标移上去才会显示
  • Go学习第十五章——Gin参数绑定bind与验证器
  • EtherCAT的4种寻址方式解析
  • Trino 源码剖析
  • element表格自定义筛选
  • 全方位 Linux 性能调优经验总结
  • Linux机器网络检查
  • 使用示例和应用程序全面了解高效数据管理的Golang MySQL数据库
  • ubuntu 22.04 源码安装 apollo 8.0