当前位置：首页 > news >正文

科普：ROC AUC与PR AUC

news 2025/9/10 17:42:15

在评价二分类模型性能时，有许多评价指标，其中，有一对是用面积AUC（Area Under the Curve）做评价的：ROC AUC与PR AUC

本文我们对ROC AUC与PR AUC进行多维度对比分析：

维度	ROC AUC	PR AUC
全称	Receiver Operating Characteristic AUC	Precision-Recall AUC
横轴	假正率（FPR）= FP / (FP + TN)	召回率（Recall）= TP / (TP + FN)
纵轴	真正率（TPR/Recall）= TP / (TP + FN)	精确率（Precision）= TP / (TP + FP)
曲线生成方式	调整分类阈值，计算不同阈值下的TPR和FPR	调整分类阈值，计算不同阈值下的Precision和Recall
数值意义	模型对正负样本的全局排序能力	模型对正类样本的查准与查全的综合能力

金融风控（正类占1%）：
- ROC AUC=0.95：可能因负类主导而虚高，无法反映欺诈识别的实际效果。
- PR AUC=0.35：直接暴露模型对正类的低识别能力，需优化特征或采样策略。
广告点击预测（正类占5%）：
- ROC AUC=0.85：表明模型整体区分能力良好。
- PR AUC=0.65：提示需提高精确率（减少误推成本）。

正类占0.5%的欺诈检测：
- ROC AUC=0.92：看似优秀，但可能因模型正确分类大量负类（TN）导致虚高。
- PR AUC=0.15：直接显示模型对欺诈交易的识别能力极差（随机模型的PR AUC=0.005）。
结论：在严重不平衡时，PR AUC是唯一可信指标。

建议：

正样本比例	不平衡程度	推荐评估指标	备注
<1%	严重不平衡	PR AUC、F1分数、召回率（Recall）、MCC、G-Mean	优先关注正类的查全率（Recall）和综合性能（PR AUC），避免ROC AUC的虚高误导。
1%~5%	严重不平衡	PR AUC、F1分数、召回率（Recall）、MCC、G-Mean	需结合过采样（SMOTE）或代价敏感学习，重点关注少数类的识别能力。
5%~10%	中度不平衡	PR AUC、F1分数、G-Mean、平衡准确率（Balanced Accuracy）、ROC AUC	平衡查准与查全，可辅以ROC AUC验证全局排序能力。
10%~20%	轻微不平衡	ROC AUC、F1分数、精确率（Precision）、PR AUC	常规处理即可，关注业务核心指标（如误判成本）。
20%~40%	较平衡	准确率（Accuracy）、ROC AUC、F1分数、精确率/召回率（按业务需求侧重）	无需特殊处理，模型优化重点转向特征工程或复杂度调整。
>40%	平衡	准确率（Accuracy）、ROC AUC、混淆矩阵（TP/FP/TN/FN）	常规分类任务，指标选择取决于业务容忍度（如FP或FN的代价）。

严重不平衡（<5%）：
- 核心指标：PR AUC（直接反映正类性能）、召回率（避免漏检）。
- 辅助指标：MCC（综合所有类别）、G-Mean（平衡正负类识别能力）。
- 禁用指标：准确率（虚高且无意义）。
中度不平衡（5%~10%）：
- 核心指标：PR AUC（仍优先）、F1分数（平衡查准与查全）。
- 辅助指标：ROC AUC（验证全局能力）、平衡准确率（简单鲁棒）。
轻微不平衡（10%~20%）：
- 核心指标：ROC AUC（全局排序）、F1分数（平衡性能）。
- 业务适配：若需高精确率（如广告推荐），优先精确率；若需高召回率（如用户流失预警），优先召回率。
实际应用：
- 金融风控：严重不平衡时，PR AUC + 召回率 + 误判成本矩阵。
- 医学诊断：中度不平衡时，召回率 + 特异度（Specificity）。
- 推荐系统：轻微不平衡时，精确率 + ROC AUC。