二分类模型的性能评价指标
1. 混淆矩阵 (Confusion Matrix)
预测正类 | 预测负类 | |
---|---|---|
实际正类 (P) | True Positive (TP) | False Negative (FN) |
实际负类 (N) | False Positive (FP) | True Negative (TN) |
- True Positive (TP): 模型正确预测为正类的样本数。
- True Negative (TN): 模型正确预测为负类的样本数。
- False Positive (FP): 模型错误预测为正类的负类样本数(“假阳性”)。
- False Negative (FN): 模型错误预测为负类的正类样本数(“假阴性”)。
2. 常见评价指标
(1) 准确率 (Accuracy)
准确率是模型整体预测正确的比例:
- 适用场景: 类别平衡时适用。
- 局限性: 不适用于类别不平衡的问题。例如,若正类样本占比 99%,即使模型始终预测为正类,准确率也会很高,但模型实际效果差。
(2) 精确率 (Precision)
精确率衡量模型预测为正类的样本中,实际为正类的比例:
- 适用场景: 注重 假阳性成本较高 的问题(如垃圾邮件分类,误报可能会打扰用户)。
- 局限性: 忽略了 FN 的影响,无法全面衡量模型性能。
(3) 召回率 (Recall) / 灵敏度 (Sensitivity) / 真阳性率 (True Positive Rate, TPR)
召回率衡量实际正类样本中,模型正确预测为正类的比例:
- 适用场景: 注重 假阴性成本较高 的问题(如疾病诊断,漏诊可能带来严重后果)。
- 局限性: 忽略了 FP 的影响。
(4) 特异性 (Specificity) / 真负率 (True Negative Rate, TNR)
特异性衡量实际负类样本中,模型正确预测为负类的比例:
- 适用场景: 注重负类预测准确性的场景(如安全监控中避免误报)。
(5) F1 分数 (F1-Score)
F1 分数是精确率和召回率的调和平均值,用于平衡两者:
- 适用场景: 精确率和召回率同样重要时。
- 局限性: 无法区分精确率和召回率哪个更重要。
(6) 平均准确率 (Balanced Accuracy)
平衡准确率是正类和负类的平均识别率:
- 适用场景: 适合类别不平衡数据。
(7) ROC 曲线和 AUC 值
- ROC 曲线: 以 假阳性率 (FPR) 为横轴,真阳性率 (TPR) 为纵轴绘制的曲线。
- AUC (Area Under the Curve): ROC 曲线下的面积,用于衡量分类器区分正负类的能力。
- AUC 越接近 1,分类器性能越好。
(8) PR 曲线和 AUC 值
- PR 曲线: 以 召回率 (Recall) 为横轴,精确率 (Precision) 为纵轴绘制的曲线。
- PR-AUC: PR 曲线下的面积,适合不平衡数据集。