【人工智能99问】激活函数有哪些,如何选择使用哪个激活函数?(5/99)
文章目录
- 激活函数
- 一、激活函数的分类
- 1. 按“是否线性”分类
- 2. 按“是否饱和”分类(针对非线性激活函数)
- 3. 按“适用层”分类
- 二、常见激活函数及特点
- (一)非线性激活函数(主要用于隐藏层)
- 1. 饱和激活函数(逐渐被淘汰,但需了解)
- 2. 非饱和激活函数(当前主流)
- (二)输出层激活函数(按任务设计)
- 三、激活函数的选择策略
- 1. 优先根据“层类型”筛选
- 2. 结合网络深度和梯度稳定性
- 3. 考虑计算资源
- 4. 实验验证
- 总结
激活函数
激活函数是神经网络的核心组件,其作用是为网络引入非线性——如果没有激活函数,无论神经网络有多少层,都只是线性模型(等价于单层线性回归),无法拟合复杂的非线性关系(如图像、语言等)。
一、激活函数的分类
激活函数的分类方式多样,常见的分类维度包括:是否线性、是否饱和、输出范围、适用场景(隐藏层/输出层)等。以下是最实用的分类框架:
1. 按“是否线性”分类
- 线性激活函数:函数表达式为线性关系(如 f(x)=kx+bf(x)=kx+bf(x)=kx+b),无法引入非线性,仅用于特定场景(如回归任务的输出层)。
- 非线性激活函数:函数表达式为非线性关系(如 f(x)=11+e−xf(x)=\frac{1}{1+e^{-x}}f(x)=1+e−x1),是神经网络的核心,几乎所有隐藏层都依赖此类函数引入非线性。
2. 按“是否饱和”分类(针对非线性激活函数)
- 饱和激活函数:当输入值的绝对值足够大时,函数的导数趋近于0(“饱和”),容易导致“梯度消失”(深层网络中梯度经多层传递后趋近于0,参数无法更新)。
- 非饱和激活函数:输入值很大时,导数仍保持较大值(不趋近于0),可缓解梯度消失,更适合深层网络。
3. 按“适用层”分类
- 隐藏层激活函数:用于网络中间层,核心是引入非线性,同时需避免梯度消失/爆炸,常见如ReLU及其变体。
- 输出层激活函数:根据任务需求设计,需匹配输出的物理意义(如概率、数值范围),常见如sigmoid(二分类)、softmax(多分类)。
二、常见激活函数及特点
以下按“非线性激活函数(隐藏层为主)”和“输出层激活函数”分类介绍,重点说明公式、图像、优缺点及适用场景。
(一)非线性激活函数(主要用于隐藏层)
这类函数的核心是引入非线性,同时需平衡计算效率和梯度稳定性。
1. 饱和激活函数(逐渐被淘汰,但需了解)
-
sigmoid函数
公式:f(x)=11+e−xf(x)=\frac{1}{1+e^{-x}}f(x)=1+e−x1
图像:S型曲线,输出范围 (0,1)(0,1)(0,1)。
特点:- 优点:输出可直接作为概率(如二分类的“属于正类的概率”),易于解释。
- 缺点:
- 梯度消失严重:导数最大值为0.25(在x=0处),多层传递后梯度趋近于0,深层网络无法训练。
- 输出非零均值(均值≈0.5):会导致后续层输入偏移,影响梯度更新。
- 计算成本高(含指数运算)。
适用场景:仅推荐用于二分类输出层(隐藏层已极少使用)。
-
tanh函数(双曲正切)
公式:f(x)=ex−e−xex+e−x=2sigmoid(2x)−1f(x)=\frac{e^x - e^{-x}}{e^x + e^{-x}} = 2sigmoid(2x) - 1f(x)=ex+e−xex−e−x=2sigmoid(2x)−1
图像:S型曲线,输出范围 (−1,1)(-1,1)(−1,1),关于原点对称。
特点:- 优点:解决了sigmoid的“非零均值”问题(输出均值≈0),梯度消失比sigmoid稍轻(导数最大值为1,在x=0处)。
- 缺点:仍存在梯度消失(输入绝对值较大时导数→0),计算成本高(指数运算)。
适用场景:早期RNN中偶尔用于隐藏层,现逐渐被ReLU变体替代。
2. 非饱和激活函数(当前主流)
-
ReLU(Rectified Linear Unit,修正线性单元)
公式:f(x)=max(0,x)f(x)=\max(0, x)f(x)=max(0,x)
图像:x>0时输出x,x≤0时输出0(折线)。
特点:- 优点:
- 计算极快(仅比较和取最大值,无指数/除法运算)。
- 缓解梯度消失:x>0时导数为1,梯度可无损传递,适合深层网络(如ResNet)。
- 缺点:
- 死亡ReLU问题:x≤0时导数为0,若神经元长期输入负信号,参数将永远无法更新(“死亡”)。
- 输出非零均值(仅非负):可能导致后续层输入偏移。
适用场景:绝大多数隐藏层的默认选择,尤其卷积神经网络(CNN)和浅层网络。
- 优点:
-
Leaky ReLU(带泄漏的ReLU)
公式:f(x)=max(αx,x)f(x)=\max(\alpha x, x)f(x)=max(αx,x)(α\alphaα 为小常数,通常取0.01)
图像:x>0时输出x,x≤0时输出 αx\alpha xαx(小斜率的直线)。
特点:- 优点:解决“死亡ReLU问题”(x≤0时仍有梯度 α\alphaα),保留ReLU的计算效率。
- 缺点:α\alphaα 是固定值(如0.01),可能不适应所有数据分布。
适用场景:当ReLU出现大量死亡神经元时替代使用(如训练数据中负样本较多的场景)。
-
Parametric ReLU(参数化ReLU,PReLU)
公式:f(x)=max(αx,x)f(x)=\max(\alpha x, x)f(x)=max(αx,x)(α\alphaα 为可学习参数,通过训练优化)
特点:- 优点:α\alphaα 自适应数据分布,灵活性更高(如对不同任务自动调整负斜率)。
- 缺点:增加网络参数(每层一个 α\alphaα),可能过拟合小数据集。
适用场景:大数据集(如ImageNet),需更高灵活性时。
-
ELU(Exponential Linear Unit,指数线性单元)
公式:f(x)={xif x>0α(ex−1)if x≤0f(x)=\begin{cases} x & \text{if } x>0 \\ \alpha(e^x - 1) & \text{if } x \leq 0 \end{cases}f(x)={xα(ex−1)if x>0if x≤0(α\alphaα 通常取1)
图像:x>0时同ReLU,x≤0时为指数曲线(趋近于 −α-\alpha−α)。
特点:- 优点:
- 输出更接近零均值(x≤0时输出接近 −α-\alpha−α),缓解输入偏移问题。
- 抗噪声能力强(负输入时平滑过渡,而非硬截断)。
- 缺点:计算成本高于ReLU(含指数运算)。
适用场景:对鲁棒性要求高的任务(如含噪声的图像识别)。
- 优点:
-
Swish函数
公式:f(x)=x⋅sigmoid(βx)f(x)=x \cdot \text{sigmoid}(\beta x)f(x)=x⋅sigmoid(βx)(β\betaβ 为常数或可学习参数,通常取1)
图像:平滑曲线,x→∞时接近x,x→-∞时接近0(类似ReLU但更平滑)。
特点:- 优点:结合ReLU(计算快)和sigmoid(平滑性),在深层网络(如MobileNet、ResNet-50)中表现优于ReLU,缓解梯度消失。
- 缺点:计算成本略高于ReLU(含sigmoid运算)。
适用场景:深层CNN(如目标检测、图像分割)。
-
GELU(Gaussian Error Linear Unit,高斯误差线性单元)
公式:f(x)=x⋅Φ(x)f(x)=x \cdot \Phi(x)f(x)=x⋅Φ(x)(Φ(x)\Phi(x)Φ(x) 是标准正态分布的累积分布函数,近似为 x⋅sigmoid(1.702x)x \cdot \text{sigmoid}(1.702x)x⋅sigmoid(1.702x))
图像:平滑曲线,x>0时接近x,x<0时输出较小的负值(比ELU更平滑)。
特点:- 优点:天然适配“ dropout ”(随机失活)机制(可理解为“对输入x按概率 Φ(x)\Phi(x)Φ(x) 保留,否则置0”),在Transformer模型(如BERT、GPT)中表现最优。
- 缺点:计算稍复杂(需近似高斯分布)。
适用场景:Transformer、BERT等预训练语言模型(当前NLP的默认选择)。
-
Mish函数
公式:f(x)=x⋅tanh(softplus(x))f(x)=x \cdot \tanh(\text{softplus}(x))f(x)=x⋅tanh(softplus(x))(softplus(x)=log(1+ex)\text{softplus}(x)=\log(1+e^x)softplus(x)=log(1+ex))
图像:比Swish更平滑,x→-∞时趋近于0,x→+∞时趋近于x。
特点:- 优点:平滑性更好,在一些竞赛(如ImageNet分类)中表现优于Swish和ReLU,梯度更稳定。
- 缺点:计算成本较高(含tanh和softplus运算)。
适用场景:需极致性能的竞赛或大模型(如深层ResNet)。
(二)输出层激活函数(按任务设计)
输出层激活函数需匹配任务的输出要求(如概率、数值范围),常见如下:
-
sigmoid:用于二分类任务(输出“属于正类的概率”,范围 (0,1)(0,1)(0,1))。例如:判断图片是否为猫(输出0-1之间的概率,>0.5为正类)。
-
softmax:用于多分类任务(输出K个类别的概率分布,和为1)。公式:f(x)i=exi∑j=1Kexjf(x)_i=\frac{e^{x_i}}{\sum_{j=1}^K e^{x_j}}f(x)i=∑j=1Kexjexi(xix_ixi 为第i类的 logit 得分)。例如:识别图片是猫、狗还是鸟(输出三个概率,和为1)。
-
Identity(线性激活函数):用于回归任务(输出连续数值,范围 (−∞,∞)(-∞,∞)(−∞,∞))。公式:f(x)=xf(x)=xf(x)=x。例如:预测房价(输出任意实数)。
-
ReLU(或其变体):用于非负回归任务(输出≥0的数值)。例如:预测图片中物体的面积(面积不能为负)。
三、激活函数的选择策略
没有“万能”的激活函数,选择需结合任务类型、网络结构、数据特点和计算资源,核心原则如下:
1. 优先根据“层类型”筛选
-
隐藏层:
- 首选ReLU(计算快、适配大多数场景);
- 若ReLU出现大量死亡神经元,换Leaky ReLU(小数据集)或PReLU(大数据集);
- 深层网络(如>50层)或需更高性能,选Swish(CNN)或GELU(Transformer);
- 对噪声敏感的任务(如医学图像),选ELU(鲁棒性更好)。
-
输出层:
- 二分类:sigmoid;
- 多分类:softmax;
- 回归(任意数值):Identity;
- 回归(非负数值):ReLU。
2. 结合网络深度和梯度稳定性
- 浅层网络(<10层):ReLU、sigmoid、tanh均可(梯度消失影响小);
- 深层网络(>20层):必须用非饱和激活函数(如ReLU变体、Swish、GELU),避免梯度消失。
3. 考虑计算资源
- 资源有限(如移动端):选ReLU或Leaky ReLU(无指数运算,计算最快);
- 资源充足(如服务器训练):可尝试ELU、Swish等(性能更优但计算稍慢)。
4. 实验验证
同一任务下,不同激活函数的表现可能差异较大(如小数据集上PReLU可能过拟合,而Leaky ReLU更稳定)。建议:
- 先用默认值(如隐藏层ReLU,输出层按任务选);
- 再替换1-2个备选(如Swish、GELU)对比验证。
总结
激活函数的核心是为网络注入非线性,其选择需在“性能”“效率”和“稳定性”之间平衡。实际应用中,优先使用主流激活函数(如ReLU、GELU),再根据具体问题微调——没有最优解,只有最适合当前任务的选择。
激活函数 | 公式 | 特点 | 适用场景 |
---|---|---|---|
Sigmoid | ( \frac{1}{1+e^{-x}} ) | 输出(0,1),易梯度消失;计算量大 | 二分类输出层 |
Tanh | ( \frac{ex-e{-x}}{ex+e{-x}} ) | 输出(-1,1),梯度比Sigmoid强;仍存在梯度消失 | RNN隐藏层 |
ReLU | ( \max(0, x) ) | 计算高效;缓解梯度消失;但存在"死亡神经元"(负输入梯度为0) | CNN/MLP隐藏层(最常用) |
Leaky ReLU | ( \max(\alpha x, x) ) | 解决ReLU死亡问题((\alpha)为小斜率,如0.01) | 需要避免神经元死亡的场景 |
GELU | ( x\Phi(x) ) | 平滑版ReLU,近似神经元随机激活特性((\Phi)为标准正态CDF) | Transformer/BERT |
Swish | ( x\cdot\sigma(\beta x) ) | 平滑、非单调;Google提出,效果常优于ReLU | 深层网络实验性替代 |
Softmax | ( \frac{e^{x_i}}{\sum_j e^{x_j}} ) | 输出概率分布(和为1);多分类任务 | 多分类输出层 |