当前位置：首页 > news >正文

一文看懂softmax loss

news 2025/9/8 13:27:02

文章目录

softmax loss
- 1.softmax函数
- 2.交叉熵损失函数
- 3.softmax loss损失函数（重点）
- 4.带有temperature参数的softmax loss
- 参考

softmax loss

1.softmax函数

softmax函数是一种常用的激活函数，通常用于多分类任务中。给定一个向量，softmax函数将每个元素转化为一个介于0~1之间的概率值，并且所有元素的概率之和为1。softmax函数的定义如下：
$\operatorname{softmax}(z)_i=\frac{e^{z_i}}{\sum_{j=1}^Ke^{z_j}}$
其中 $z$ 是输入向量， $K$ 是向量的维度。softmax函数的作用是将输入的原始分数（通常称之为logits¹）转化为表示各个类别概率的分布。

2.交叉熵损失函数

交叉熵损失函数是用来衡量两个概率分布之间的差异性的一种度量方式。在深度学习中，常用交叉熵损失函数来衡量模型预测的概率分布与真实标签的分布之间的差异，从而作为优化目标来训练模型。

对于二分类问题，交叉熵损失函数的定义如下：
$\text{Binary Cross Entropy Loss}=-\frac1N\sum_{i=1}^N\left[y_i\log(p_i)+(1-y_i)\log(1-p_i)\right]$
其中 $y_i$ 是真实标签， $p_i$ 是模型预测的概率值， $N$ 是样本数。

对于多分类问题，交叉熵损失函数的定义如下：
$\text{Cross Entropy Loss}=-\frac1N\sum_{i=1}^N\sum_{k=1}^Ky_{i,k}\log(p_{i,k})$
其中 $y_{i,k}$ 是第 $i$ 个样本属于第 $k$ 个类别的真实标签， $p_{i,k}$ 是模型预测的第 $i$ 个样本属于第 $k$ 个类别的概率值， $N$ 是样本数， $K$ 是类别数。

3.softmax loss损失函数（重点）

softmax loss是深度学习中最常见的损失函数，完整的叫法为 Cross-entropy loss with softmax。softmax loss 由Fully Connected Layer，Softmax Function和Cross-entropy Loss组成。

Alt

softmax loss就是将softmax函数和交叉熵损失函数结合在了一起。
$\text{Softmax Loss}=-\frac1N\sum_{i=1}^N\sum_{k=1}^Ky_{i,k}\log\left(\frac{\exp(z_{i,k})}{\sum_{j=1}^K\exp(z_{i,j})}\right)$
其中 $y_{i,k}$ 是第 $i$ 个样本属于第 $k$ 个类别的真实标签，当样本 $i$ 属于类别 $k$ 时， $y_{i,k}=1$ ；否则， $y_{i,k}=0$ 。 $z_{i,k}$ 是样本 $i$ 关于类别 $k$ 的得分logits， $N$ 是样本数， $K$ 是类别数。

4.带有temperature参数的softmax loss

带有温度参数 $T$ 的 softmax loss的损失函数如下：
$\text{Loss}=-\frac1N\sum_{i=1}^N\sum_{k=1}^Ky_{i,k}\log\left(\frac{\exp(z_{i,k}/T)}{\sum_{j=1}^K\exp(z_{i,j}/T)}\right)$