当前位置: 首页 > news >正文

【人工智能99问】激活函数有哪些,如何选择使用哪个激活函数?(5/99)

文章目录

  • 激活函数
    • 一、激活函数的分类
      • 1. 按“是否线性”分类
      • 2. 按“是否饱和”分类(针对非线性激活函数)
      • 3. 按“适用层”分类
    • 二、常见激活函数及特点
      • (一)非线性激活函数(主要用于隐藏层)
        • 1. 饱和激活函数(逐渐被淘汰,但需了解)
        • 2. 非饱和激活函数(当前主流)
      • (二)输出层激活函数(按任务设计)
    • 三、激活函数的选择策略
      • 1. 优先根据“层类型”筛选
      • 2. 结合网络深度和梯度稳定性
      • 3. 考虑计算资源
      • 4. 实验验证
    • 总结

激活函数

激活函数是神经网络的核心组件,其作用是为网络引入非线性——如果没有激活函数,无论神经网络有多少层,都只是线性模型(等价于单层线性回归),无法拟合复杂的非线性关系(如图像、语言等)。

一、激活函数的分类

激活函数的分类方式多样,常见的分类维度包括:是否线性、是否饱和、输出范围、适用场景(隐藏层/输出层)等。以下是最实用的分类框架:

1. 按“是否线性”分类

  • 线性激活函数:函数表达式为线性关系(如 f(x)=kx+bf(x)=kx+bf(x)=kx+b),无法引入非线性,仅用于特定场景(如回归任务的输出层)。
  • 非线性激活函数:函数表达式为非线性关系(如 f(x)=11+e−xf(x)=\frac{1}{1+e^{-x}}f(x)=1+ex1),是神经网络的核心,几乎所有隐藏层都依赖此类函数引入非线性。

2. 按“是否饱和”分类(针对非线性激活函数)

  • 饱和激活函数:当输入值的绝对值足够大时,函数的导数趋近于0(“饱和”),容易导致“梯度消失”(深层网络中梯度经多层传递后趋近于0,参数无法更新)。
  • 非饱和激活函数:输入值很大时,导数仍保持较大值(不趋近于0),可缓解梯度消失,更适合深层网络。

3. 按“适用层”分类

  • 隐藏层激活函数:用于网络中间层,核心是引入非线性,同时需避免梯度消失/爆炸,常见如ReLU及其变体。
  • 输出层激活函数:根据任务需求设计,需匹配输出的物理意义(如概率、数值范围),常见如sigmoid(二分类)、softmax(多分类)。

二、常见激活函数及特点

以下按“非线性激活函数(隐藏层为主)”和“输出层激活函数”分类介绍,重点说明公式、图像、优缺点及适用场景。

(一)非线性激活函数(主要用于隐藏层)

这类函数的核心是引入非线性,同时需平衡计算效率和梯度稳定性。

1. 饱和激活函数(逐渐被淘汰,但需了解)
  • sigmoid函数
    公式:f(x)=11+e−xf(x)=\frac{1}{1+e^{-x}}f(x)=1+ex1
    图像:S型曲线,输出范围 (0,1)(0,1)(0,1)
    特点:

    • 优点:输出可直接作为概率(如二分类的“属于正类的概率”),易于解释。
    • 缺点:
      • 梯度消失严重:导数最大值为0.25(在x=0处),多层传递后梯度趋近于0,深层网络无法训练。
      • 输出非零均值(均值≈0.5):会导致后续层输入偏移,影响梯度更新。
      • 计算成本高(含指数运算)。
        适用场景:仅推荐用于二分类输出层(隐藏层已极少使用)。
  • tanh函数(双曲正切)
    公式:f(x)=ex−e−xex+e−x=2sigmoid(2x)−1f(x)=\frac{e^x - e^{-x}}{e^x + e^{-x}} = 2sigmoid(2x) - 1f(x)=ex+exexex=2sigmoid(2x)1
    图像:S型曲线,输出范围 (−1,1)(-1,1)(1,1),关于原点对称。
    特点:

    • 优点:解决了sigmoid的“非零均值”问题(输出均值≈0),梯度消失比sigmoid稍轻(导数最大值为1,在x=0处)。
    • 缺点:仍存在梯度消失(输入绝对值较大时导数→0),计算成本高(指数运算)。
      适用场景:早期RNN中偶尔用于隐藏层,现逐渐被ReLU变体替代。
2. 非饱和激活函数(当前主流)
  • ReLU(Rectified Linear Unit,修正线性单元)
    公式:f(x)=max⁡(0,x)f(x)=\max(0, x)f(x)=max(0,x)
    图像:x>0时输出x,x≤0时输出0(折线)。
    特点:

    • 优点:
      • 计算极快(仅比较和取最大值,无指数/除法运算)。
      • 缓解梯度消失:x>0时导数为1,梯度可无损传递,适合深层网络(如ResNet)。
    • 缺点:
      • 死亡ReLU问题:x≤0时导数为0,若神经元长期输入负信号,参数将永远无法更新(“死亡”)。
      • 输出非零均值(仅非负):可能导致后续层输入偏移。
        适用场景:绝大多数隐藏层的默认选择,尤其卷积神经网络(CNN)和浅层网络。
  • Leaky ReLU(带泄漏的ReLU)
    公式:f(x)=max⁡(αx,x)f(x)=\max(\alpha x, x)f(x)=max(αx,x)α\alphaα 为小常数,通常取0.01)
    图像:x>0时输出x,x≤0时输出 αx\alpha xαx(小斜率的直线)。
    特点:

    • 优点:解决“死亡ReLU问题”(x≤0时仍有梯度 α\alphaα),保留ReLU的计算效率。
    • 缺点:α\alphaα 是固定值(如0.01),可能不适应所有数据分布。
      适用场景:当ReLU出现大量死亡神经元时替代使用(如训练数据中负样本较多的场景)。
  • Parametric ReLU(参数化ReLU,PReLU)
    公式:f(x)=max⁡(αx,x)f(x)=\max(\alpha x, x)f(x)=max(αx,x)α\alphaα 为可学习参数,通过训练优化)
    特点:

    • 优点:α\alphaα 自适应数据分布,灵活性更高(如对不同任务自动调整负斜率)。
    • 缺点:增加网络参数(每层一个 α\alphaα),可能过拟合小数据集。
      适用场景:大数据集(如ImageNet),需更高灵活性时。
  • ELU(Exponential Linear Unit,指数线性单元)
    公式:f(x)={xif x>0α(ex−1)if x≤0f(x)=\begin{cases} x & \text{if } x>0 \\ \alpha(e^x - 1) & \text{if } x \leq 0 \end{cases}f(x)={xα(ex1)if x>0if x0α\alphaα 通常取1)
    图像:x>0时同ReLU,x≤0时为指数曲线(趋近于 −α-\alphaα)。
    特点:

    • 优点:
      • 输出更接近零均值(x≤0时输出接近 −α-\alphaα),缓解输入偏移问题。
      • 抗噪声能力强(负输入时平滑过渡,而非硬截断)。
    • 缺点:计算成本高于ReLU(含指数运算)。
      适用场景:对鲁棒性要求高的任务(如含噪声的图像识别)。
  • Swish函数
    公式:f(x)=x⋅sigmoid(βx)f(x)=x \cdot \text{sigmoid}(\beta x)f(x)=xsigmoid(βx)β\betaβ 为常数或可学习参数,通常取1)
    图像:平滑曲线,x→∞时接近x,x→-∞时接近0(类似ReLU但更平滑)。
    特点:

    • 优点:结合ReLU(计算快)和sigmoid(平滑性),在深层网络(如MobileNet、ResNet-50)中表现优于ReLU,缓解梯度消失。
    • 缺点:计算成本略高于ReLU(含sigmoid运算)。
      适用场景:深层CNN(如目标检测、图像分割)。
  • GELU(Gaussian Error Linear Unit,高斯误差线性单元)
    公式:f(x)=x⋅Φ(x)f(x)=x \cdot \Phi(x)f(x)=xΦ(x)Φ(x)\Phi(x)Φ(x) 是标准正态分布的累积分布函数,近似为 x⋅sigmoid(1.702x)x \cdot \text{sigmoid}(1.702x)xsigmoid(1.702x)
    图像:平滑曲线,x>0时接近x,x<0时输出较小的负值(比ELU更平滑)。
    特点:

    • 优点:天然适配“ dropout ”(随机失活)机制(可理解为“对输入x按概率 Φ(x)\Phi(x)Φ(x) 保留,否则置0”),在Transformer模型(如BERT、GPT)中表现最优。
    • 缺点:计算稍复杂(需近似高斯分布)。
      适用场景:Transformer、BERT等预训练语言模型(当前NLP的默认选择)。
  • Mish函数
    公式:f(x)=x⋅tanh⁡(softplus(x))f(x)=x \cdot \tanh(\text{softplus}(x))f(x)=xtanh(softplus(x))softplus(x)=log⁡(1+ex)\text{softplus}(x)=\log(1+e^x)softplus(x)=log(1+ex)
    图像:比Swish更平滑,x→-∞时趋近于0,x→+∞时趋近于x。
    特点:

    • 优点:平滑性更好,在一些竞赛(如ImageNet分类)中表现优于Swish和ReLU,梯度更稳定。
    • 缺点:计算成本较高(含tanh和softplus运算)。
      适用场景:需极致性能的竞赛或大模型(如深层ResNet)。

(二)输出层激活函数(按任务设计)

输出层激活函数需匹配任务的输出要求(如概率、数值范围),常见如下:

  • sigmoid:用于二分类任务(输出“属于正类的概率”,范围 (0,1)(0,1)(0,1))。例如:判断图片是否为猫(输出0-1之间的概率,>0.5为正类)。

  • softmax:用于多分类任务(输出K个类别的概率分布,和为1)。公式:f(x)i=exi∑j=1Kexjf(x)_i=\frac{e^{x_i}}{\sum_{j=1}^K e^{x_j}}f(x)i=j=1Kexjexixix_ixi 为第i类的 logit 得分)。例如:识别图片是猫、狗还是鸟(输出三个概率,和为1)。

  • Identity(线性激活函数):用于回归任务(输出连续数值,范围 (−∞,∞)(-∞,∞)(,))。公式:f(x)=xf(x)=xf(x)=x。例如:预测房价(输出任意实数)。

  • ReLU(或其变体):用于非负回归任务(输出≥0的数值)。例如:预测图片中物体的面积(面积不能为负)。

三、激活函数的选择策略

没有“万能”的激活函数,选择需结合任务类型、网络结构、数据特点计算资源,核心原则如下:

1. 优先根据“层类型”筛选

  • 隐藏层

    • 首选ReLU(计算快、适配大多数场景);
    • 若ReLU出现大量死亡神经元,换Leaky ReLU(小数据集)或PReLU(大数据集);
    • 深层网络(如>50层)或需更高性能,选Swish(CNN)或GELU(Transformer);
    • 对噪声敏感的任务(如医学图像),选ELU(鲁棒性更好)。
  • 输出层

    • 二分类:sigmoid
    • 多分类:softmax
    • 回归(任意数值):Identity
    • 回归(非负数值):ReLU

2. 结合网络深度和梯度稳定性

  • 浅层网络(<10层):ReLU、sigmoid、tanh均可(梯度消失影响小);
  • 深层网络(>20层):必须用非饱和激活函数(如ReLU变体、Swish、GELU),避免梯度消失。

3. 考虑计算资源

  • 资源有限(如移动端):选ReLULeaky ReLU(无指数运算,计算最快);
  • 资源充足(如服务器训练):可尝试ELUSwish等(性能更优但计算稍慢)。

4. 实验验证

同一任务下,不同激活函数的表现可能差异较大(如小数据集上PReLU可能过拟合,而Leaky ReLU更稳定)。建议:

  • 先用默认值(如隐藏层ReLU,输出层按任务选);
  • 再替换1-2个备选(如Swish、GELU)对比验证。

总结

激活函数的核心是为网络注入非线性,其选择需在“性能”“效率”和“稳定性”之间平衡。实际应用中,优先使用主流激活函数(如ReLU、GELU),再根据具体问题微调——没有最优解,只有最适合当前任务的选择。

激活函数公式特点适用场景
Sigmoid( \frac{1}{1+e^{-x}} )输出(0,1),易梯度消失;计算量大二分类输出层
Tanh( \frac{ex-e{-x}}{ex+e{-x}} )输出(-1,1),梯度比Sigmoid强;仍存在梯度消失RNN隐藏层
ReLU( \max(0, x) )计算高效;缓解梯度消失;但存在"死亡神经元"(负输入梯度为0)CNN/MLP隐藏层(最常用)
Leaky ReLU( \max(\alpha x, x) )解决ReLU死亡问题((\alpha)为小斜率,如0.01)需要避免神经元死亡的场景
GELU( x\Phi(x) )平滑版ReLU,近似神经元随机激活特性((\Phi)为标准正态CDF)Transformer/BERT
Swish( x\cdot\sigma(\beta x) )平滑、非单调;Google提出,效果常优于ReLU深层网络实验性替代
Softmax( \frac{e^{x_i}}{\sum_j e^{x_j}} )输出概率分布(和为1);多分类任务多分类输出层
http://www.lryc.cn/news/589428.html

相关文章:

  • 全新 Python 项目托管到 Gitee 私有仓库完整流程(带详细命令注释)
  • 【PTA数据结构 | C语言版】构造二叉树
  • 软件质量概述
  • 使用 pdb 来 debug 调试 python 程序
  • I3C通信驱动开发注意事项
  • Linux715 磁盘管理:逻辑卷
  • golang二级缓存示例
  • 随机奖励能提升Qwen数学表现?本质是数据污染
  • NuGet01-安装及使用
  • Linux下编译海思WS63 SDK全攻略
  • 关于Linux下Cursor的使用
  • 如何设计实现开发自助重启工具-01-设计篇
  • 代码随想录八股文训练营总结
  • lesson14:Python的推导式
  • 2025-07-15 李沐深度学习6——Softmax回归
  • 项目:简单学生成绩管理系统设计
  • Nginx配置反向代理
  • 深入解析:磁盘级文件与内存级(被打开)文件的本质区别与联系
  • 脚手架新建Vue2/Vue3项目时,项目文件内容的区别
  • k8s环境使用Operator部署Seaweedfs集群(上)
  • 同济医院R语言训练营第三期开讲!上交大张维拓老师主讲
  • ubuntu22.04谷歌浏览器中文输入法bug
  • ASP .NET Core 8结合JWT轻松实现身份验证和授权
  • ESLint 配置错误:ReferenceError: prettier is not defined 解决方案
  • Vue 常用的 ESLint 规则集
  • 卫星通信链路预算之六:输出回退
  • web前端渡一大师课 01 事件循环
  • 网络基础协议综合实验
  • Spring MVC 执行流程详解:一次请求经历了什么?
  • Linux修改ssh默认端口,禁止root登录,禁止密码登录并同时开启公钥认证