评价指标计算
混淆矩阵:
-
准确率(Precision):记为P_i,表示被正确预测为类别i的样本数占所有被预测为类别i的样本数的比例。
-
召回率(Recall):记为R_i,表示被正确预测为类别i的样本数占真实类别i的样本数的比例。
-
F1-score:记为F1_i,是准确率和召回率的加权调和平均,用于综合考虑准确率和召回率。
-
macro avg 是计算这些指标的宏平均值。不考虑类别样本数量的差异,将每个类别的指标求和后再除以类别总数N,得到各指标的平均值。具体计算方式如下:
macro avg-P:(P_macro_avg)= (P_1 + P_2 + … + P_N) / N
macro avg-R:(R_macro_avg)= (R_1 + R_2 + … + R_N) / N
macro avg-F1:(F1_macro_avg)= (F1_1 + F1_2 + … + F1_N) / N -
weighted avg 根据样本权重计算这些指标的加权平均,具体计算公式如下,w_i表示类别i的样本权重:
weighted avg-P:(P_weighted_avg)= w_1 * P_1 + w_2 * P_2 + … + w_N * P_N
weighted avg-R(R_weighted_avg)= w_1 * R_1 + w_2 * R_2 + … + w_N * R_N -
micro avg 计算公式如下:
micro avg-P = (总体TP) / (总体TP + 总体FP)
micro avg-R = (总体TP) / (总体TP + 总体FN)
micro avg-F1 = 2 * (micro avg-P * micro avg-R) / (micro avg-P + micro avg-R)
macro avg: 每个类别的权重相等,不考虑样本在每个类别中的数量差异。关注每个类别的性能表现,对每个类别的平均性能进行评估。
micro avg: 每个样本的权重相等。micro avg更加关注整体的性能表现,对样本数量较多的类别有更大的影响。
"总体TP+总体FP" 的意义在于表示了所有被分类为正例的样本数量,即模型认为是正例的总数。这个指标可以用来评估模型对正例的整体识别能力。较高的总体TP + 总体FP值表示模型对正例的识别能力较强,能够正确地将更多的样本分类为正例。
"总体TP+总体FN" 的意义在于表示了所有真实正例的样本数量,即模型正确识别为正例的总数。这个指标可以用来评估模型对真实正例的召回能力,即模型能够正确地将多少真实正例分类为正例。
真阳性(TP)、假阳性(FP)、真阴性(TN)、假阴性(FN)