当前位置: 首页 > news >正文

常用激活函数学习

常用激活函数及其应用

  1. ReLU (Rectified Linear Unit)

    • 公式: f ( x ) = max ⁡ ( 0 , x ) f(x) = \max(0, x) f(x)=max(0,x)
    • 理解: 当输入值为正时,输出等于输入值;否则输出为0。ReLU函数简单且计算效率高,能有效缓解梯度消失问题,促进深层网络的学习。
    • 场景与大模型应用: ReLU是深度学习中最常用的激活函数,尤其是在卷积神经网络(CNN)和递归神经网络(RNN)的隐藏层中。著名的模型如VGGNet、ResNet系列广泛使用ReLU及其变体,如ReLU6和Leaky ReLU。
  2. Sigmoid

    • 公式: f ( x ) = 1 1 + e − x f(x) = \frac{1}{1 + e^{-x}} f(x)=1+ex1
    • 理解: 将输入映射到(0, 1)之间,常用于需要概率输出的场景,如二元分类问题。但因其饱和特性,导致梯度消失问题。
    • 场景与大模型应用: 在早期的神经网络和一些特定任务中使用,如在LSTM的门控机制中控制信息流。现代网络较少在隐藏层使用,因梯度消失问题。
  3. Tanh (Hyperbolic Tangent)

    • 公式: f ( x ) = e x − e − x e x + e − x f(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} f(x)=ex+exexex
    • 理解: 输出范围在(-1, 1),比Sigmoid具有更好的梯度特性,适用于需要中心化的输出分布。
    • 场景与大模型应用: 在循环神经网络如LSTM和GRU的隐藏状态中常用,有助于保持状态的数值稳定性。
  4. Softmax

    • 公式: f i ( x ) = e x i ∑ j = 1 n e x j f_i(x) = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}} fi(x)=j=1nexjexi,其中 x x x是向量, f i f_i fi是第 i i i个元素的softmax输出。
    • 理解: 将输入向量转换为概率分布,保证所有输出之和为1,非常适合多分类问题。
    • 场景与大模型应用: 几乎所有涉及多类别分类的模型输出层都会使用Softmax,如图像分类的ResNet、Inception,以及文本分类的BERT模型。
  5. Leaky ReLU

    • 公式: f ( x ) = max ⁡ ( a x , x ) f(x) = \max(ax, x) f(x)=max(ax,x),其中 a a a是一个小于1的正值,通常是0.01。
    • 理解: Leaky ReLU是对ReLU的一个改进,允许负数输入有非零斜率的输出,有助于解决“死亡ReLU”问题。
    • 场景与大模型应用: 适用于需要缓解ReLU死区问题的模型,虽然不像ReLU那样普遍,但在某些特定模型或层中仍然可见。

这些激活函数的选择取决于具体任务的需求,如是否需要输出概率、是否关注梯度消失或爆炸问题,以及模型的深度等因素。不同的激活函数在不同的大模型中有其独特的应用场景,优化模型性能和学习能力。

http://www.lryc.cn/news/353493.html

相关文章:

  • html中被忽略的简单标签
  • Vue.Draggable:强大的Vue拖放组件技术探索
  • linux mail命令及其历史
  • 数据驱动(Data-Driven)和以数据为中心(Data-Centric)的区别
  • aosp14的分屏接口ISplitScreen接口获取方式更新-学员疑问答疑
  • 定积分求解过程是否变限问题 以及当换元时注意事项
  • 保研机试算法训练个人记录笔记(七)
  • 【MySQL精通之路】SQL优化(1)-查询优化(23)-避免全表扫描
  • 【Linux】写时拷贝技术COW (copy-on-write)
  • 用python使用主成分分析数据
  • 用WPS将多张图片生成一个pdf文档,注意参数设置
  • virtual box ubuntu20 全屏展示
  • react中的数据驱动视图,useState()的使用
  • 金融数据库,实时行情,股票财务数据在线查询
  • 开源模型应用落地-LangSmith试炼-入门初体验-数据集评估(三)
  • 设计模式 15 Decorator Pattern 装饰器模式
  • cuda11.8安装torch2.0.1
  • 新手困 ViewModel与Activting的databinding2个对象 区别
  • Cocos Creator 声音播放与管理详解
  • 今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 5月26日,星期日
  • IDEA快速生成类注释和方法注释的方法
  • [集群聊天服务器]----(七)业务模块之一对一聊天、添加好友函数、好友类以及离线消息类
  • java中使用jedis连接redis
  • 【多线程开发 2】从代码到实战TransmittableThreadLocal
  • 【车载以太网测试从入门到精通】——SOME/IP协议测试
  • 作业39 sqrt应用
  • springboot 实现跨域的几种方式
  • springmvc Web上下文初始化
  • Verilog实战学习到RiscV - 2 : wire 和 reg 的区别
  • OpenGL给定直线起点和终点不同的颜色,使用中点Bresenham画线