当前位置：首页 > news >正文

【人工智能99问】损失函数有哪些，如何选择？(6/99)

news 2025/7/17 6:51:05

全面解析损失函数：分类、回归、序列与结构化预测

损失函数（Loss Function）是机器学习和深度学习的核心组件，用于量化模型预测与真实值之间的差异，并指导模型优化方向。本文系统性地介绍损失函数的分类、特点及适用场景，涵盖回归任务、分类任务、序列预测和结构化预测，并提供实际应用中的选择建议。

损失函数可以按任务类型、数学性质或应用场景分类：

凸函数 vs 非凸函数
- 凸函数（如MSE、Log Loss）保证全局最优，但对噪声敏感。
- 非凸函数（如深度学习中的复杂损失）可能陷入局部最优，但拟合能力更强。
平滑性
- 平滑函数（如MSE）梯度稳定，易于优化。
- 非平滑函数（如MAE）需次梯度方法（如Proximal Optimization）。
鲁棒性
- 鲁棒损失（如Huber、MAE）降低异常值影响。
- 非鲁棒损失（如MSE）对噪声敏感。

适用于连续值预测（如房价、温度预测）。

公式：
$L(y,y^)=1n∑i=1n(yi−y^i)2L(y, \hat{y}) = \frac{1}{n}\sum_{i=1}^n (y_i - \hat{y}_i)^2$
特点：
- 对异常值敏感（平方放大误差）。
- 梯度随误差增大而增大，收敛快。
适用场景：高斯噪声分布的数据（如传感器信号）。

公式：
$L(y,y^)=1n∑i=1n∣yi−y^i∣L(y, \hat{y}) = \frac{1}{n}\sum_{i=1}^n |y_i - \hat{y}_i|$
特点：
- 对异常值鲁棒，梯度恒定。
- 在零点不可导，需次梯度优化。
适用场景：金融数据、存在离群点的任务。

公式（分段函数）：
$L(y,y^)={12(y−y^)2if ∣y−y^∣≤δδ∣y−y^∣−12δ2otherwiseL(y, \hat{y}) = \begin{cases} \frac{1}{2}(y - \hat{y})^2 & \text{if } |y - \hat{y}| \leq \delta \\ \delta |y - \hat{y}| - \frac{1}{2}\delta^2 & \text{otherwise} \end{cases}$
特点：
- 结合MSE和MAE，对异常值鲁棒且可微。
- 需调超参数(\delta)。
适用场景：自动驾驶（平衡平滑性和鲁棒性）。

适用于离散标签预测（如图像分类、文本分类）。

二分类（Binary Cross-Entropy）：
$L(y,y^)=−1n∑i=1n[yilog⁡(y^i)+(1−yi)log⁡(1−y^i)]L(y, \hat{y}) = -\frac{1}{n}\sum_{i=1}^n [y_i \log(\hat{y}_i) + (1-y_i) \log(1-\hat{y}_i)]$
多分类（Categorical Cross-Entropy）：
$L(y,y^)=−1n∑i=1n∑c=1Cyi,clog⁡(y^i,c)L(y, \hat{y}) = -\frac{1}{n}\sum_{i=1}^n \sum_{c=1}^C y_{i,c} \log(\hat{y}_{i,c})$
特点：
- 对概率分布敏感，梯度随误差增大而增大。
- 需配合Softmax（多分类）或Sigmoid（二分类）使用。
适用场景：图像分类、情感分析。

公式：
$L(y,y^)=max⁡(0,1−y⋅y^)L(y, \hat{y}) = \max(0, 1 - y \cdot \hat{y})$ （ $\in \{-1, 1\}$ ）
特点：
- 用于SVM，最大化分类间隔。
- 对误分类样本惩罚线性增长。
适用场景：二分类任务（如垃圾邮件检测）。

公式：
$L(y,y^)=−α(1−y^)γylog⁡(y^)L(y, \hat{y}) = -\alpha (1-\hat{y})^\gamma y \log(\hat{y})$
特点：
- 解决类别不平衡问题，聚焦难样本。
- 需调参数 $α\alpha$ （类别权重）和 $γ\gamma$ （聚焦参数）。
适用场景：目标检测（RetinaNet）、医学图像分析。

适用于输入或输出为序列的任务（如语音识别、机器翻译）。

公式：
$-\log \sum_{\pi \in \mathcal{B}^{-1}(y)} P(\pi | x)$
(\mathcal{B})为去除重复和空白符的映射函数。
特点：
- 处理输入输出长度不一致的序列。
- 需配合Blank字符处理对齐问题。
适用场景：语音识别、OCR。

公式：
$L=−1T∑t=1T∑c=1Cyt,clog⁡(y^t,c)L = -\frac{1}{T} \sum_{t=1}^T \sum_{c=1}^C y_{t,c} \log(\hat{y}_{t,c})$
特点：
- 假设每一步预测独立，可能忽略序列依赖。
- 可通过注意力机制改进。
适用场景：机器翻译、文本摘要。

适用于输出具有内部结构的任务（如NER、图像分割）。

公式：
$-\log P(y | x) = - \left( \sum_{i} \phi(y_i, x) + \sum_{i,j} \psi(y_i, y_j) - \log Z(x) \right)$
特点：
- 显式建模标签间依赖（如BIO标注规则）。
- 解码时用维特比算法找最优路径。
适用场景：命名实体识别（NER）、词性标注。

公式：
$L=1−2∑iyiy^i∑iyi+∑iy^iL = 1 - \frac{2 \sum_{i} y_i \hat{y}_i}{\sum_{i} y_i + \sum_{i} \hat{y}_i}$
特点：
- 直接优化IoU，对类别不平衡鲁棒。
- 非凸性可能影响优化。
适用场景：医学图像分割、实例分割。

任务类型	推荐损失函数	关键特点	典型应用
回归任务	MSE / MAE / Huber	平衡平滑性和鲁棒性	房价预测、温度预测
二分类任务	Binary Cross-Entropy	概率输出，梯度敏感	垃圾邮件检测
多分类任务	Categorical Cross-Entropy	配合Softmax输出	图像分类、文本分类
类别不平衡分类	Focal Loss	降低易分类样本权重	目标检测（RetinaNet）
序列预测	CTC / Seq2Seq + Attention	处理变长序列，对齐问题	语音识别、机器翻译
结构化预测	CRF / Dice Loss	建模标签依赖或优化IoU	NER、医学图像分割