当前位置: 首页 > news >正文

点破ResNet残差网络的精髓

卷积神经网络在实际训练过程中,不可避免会遇到一个问题:随着网络层数的增加,模型会发生退化
  在这里插入图片描述

换句话说,并不是网络层数越多越好,为什么会这样? 不是说网络越深,提取的特征越多,网络的表达能力会更好吗?
  要理解这个问题:需要对网络的BP反向传播算法有深入的理解。
 在BP反向传播的过程中:因为链式法则的缘故,激活函数会存在连乘效应,非线性的激活函数在连乘过程中会最终趋近于0,从而产生梯度消失的问题。
 我们可以选择线性激活函数,比如ReLu,以及正则化来缓解梯度消失的问题,但是并不能从根本解决问题。因为在深层网络的反向传播过程中,网络会逐渐饱和,在权重更新值极小的情况下,继续增加网络深度,反而会增加Loss, 这一点是由经验得来。
 所以,我们可以有一种猜测: 深层网络中: 网络可能已经在中间某一层学习到最优解,只要能够在后续的隐藏层"什么都不学",透明传输到输入层就能解决Loss增加的问题。
 这个就是恒等映射,学习到最优解后,激活函数y=x就什么都不做,把输入原样输出。 这就是残差网络的实质。
 那个skip connection跳跃连接实际就是恒等映射的叠加。
 
在这里插入图片描述

http://www.lryc.cn/news/132939.html

相关文章:

  • Ubuntu服务器service版本初始化
  • re学习(33)攻防世界-secret-galaxy-300(脑洞题)
  • Mybatis Plus中使用LambdaQueryWrapper进行分页以及模糊查询对比传统XML方式进行分页
  • vue中push和resolve的区别
  • 详解RFC 3550文档-1
  • Go 与 Rust
  • Android Studio实现读取本地相册文件并展示
  • python的全局解释锁(GIL)
  • 小程序swiper一个轮播显示一个半内容且实现无缝滚动
  • 【自然语言处理】关系抽取 —— SimpleRE 讲解
  • 【O2O领域】Axure外卖订餐骑手端APP原型图,外卖众包配送原型设计图
  • DataGridView keydown事件无法在C#中工作
  • 【ElasticSearch】一键安装ElasticSearch与Kibana以及解决遇到的问题
  • 电商数据采集和数据分析
  • react 11之 router6路由 (两种路由模式、两种路由跳转、两种传参与接收参数、嵌套路由,layout组件、路由懒加载)
  • Golang 基础语法问答
  • 冠达管理:哪里查中报预增?
  • docker安装Oracle11gR2
  • unity 之 Input.GetMouseButtonDown 的使用
  • 链游再进化 Web3版CSGO来袭
  • WordPress用于您的企业网站的优点和缺点
  • ~600行ANSI C代码实现RISC-V CPU核
  • 【从零学习python 】55.Python中的序列化和反序列化,JSON与pickle模块的应用
  • 【C++】详解内存中的堆和栈
  • QCustomPlot横坐标为毫秒级的时间轴数据展示的实时刷新数据功能
  • STM32/AT32 MCO管脚输出时钟配置
  • “SRP模型+”多技术融合在生态环境脆弱性评价模型构建、时空格局演变分析与RSEI 指数的生态质量评价
  • 【大虾送书第六期】搞懂大模型的智能基因,RLHF系统设计关键问答
  • 超越函数界限:探索JavaScript函数的无限可能
  • PHP实现轻量级WEB服务器接收HTTP提交的RFID刷卡信息并回应驱动读卡器显示播报语音