当前位置：首页 > news >正文

分类任务评价指标

news 2025/8/6 11:10:36

分类任务评价指标

分类任务中，有以下几个常用指标：

混淆矩阵
准确率（Accuracy）
精确率（查准率，Precision）
召回率（查全率，Recall）
F-score
PR曲线
ROC曲线

1. 混淆矩阵

	真实1	真实0
预测1	TP	FP
预测0	FN	TN

从预测的角度看：

TP： True Positive。预测为1，实际为1，预测正确。
FP： False Positive。预测为1，实际为0，预测错误。
FN： False Negative。预测为0，实际为1，预测错误。
TN： True Negative。预测为0，实际为0，预测正确。

2.准确率（Accuracy）

在所有预测结果中，正确预测的占比：

$Accuracy = \frac{TP+TN}{TP+FP+FN+TN} $

准确率衡量整体（包括正样本和负样本）的预测准确度，但不适用与样本不均衡的情况。比如有100个样本，其中正样本90个，负样本10个，此时模型将所有样本都预测为正样本就可以取得 90% 的准确率，但实际上这个模型根本就没有分类的能力。

3. 精确率（查准率，Precision）

在所有预测为1的样本中，正确预测的占比：

$ Precision = \frac{TP}{TP+FP}$

衡量正样本的预测准确度。

4. 召回率（查全率，Recall）

在所有真实标签为1的样本中，正确预测的占比：

$\frac{TP}{TP+FN}$

衡量模型预测正样本的能力。

5. F-score

综合考虑精确率和召回率：

$ F_{score}=(1+\beta^{2)\frac{PR}{\beta}2*P+R} $

β=1，表示Precision与Recall一样重要（此时也叫F1-score）
β<1，表示Precision比Recall重要
β>1，表示Recall比Precision重要

精确率和召回率相互“制约”：精确率高，则召回率就低；召回率高，则精确率就低。因此就需要综合考虑它们，最常见的方法就是 F-score 。F-score越大模型性能越好。

6. PR曲线

6.1 绘制方法

PR曲线以召回率R为横坐标、以精确率P为纵坐标，以下面的数据为例说明一下绘制方法：

	1	2	3	4	5
预测为正类的概率 score	0.9	0.8	0.7	0.5	0.3
实际类别 class	1	0	1	1	0

将每个样本的预测结果按照预测为正类的概率排序（上面已排序）
依次看每个样本

a) 对于样本1，将它的 score 0.9 作为阈值，即 score >= 0.9时样本预测为 1 ，反之预测为 0，得到以下混淆矩阵

真实1 真实0
预测1 1 0
预测0 2 2
b) 对于样本2，将它的 score 0.8 作为阈值，即 score >= 0.8时样本预测为 1 ，反之预测为 0，得到以下混淆矩阵

真实1 真实0
预测1 1 1
预测0 2 1
c) ……

d) ……

e) 对于样本5，将它的 score 0.3 作为阈值，即 score >= 0.3时样本预测为 1 ，反之预测为 0，得到以下混淆矩阵

真实1 真实0
预测1 3 2
预测0 0 0
根据上面的混淆矩阵，依次算出 5 对(R, R)，以召回率R为横坐标、以精确率P为纵坐标，将这些点连接起来即得到 PR 曲线。

6.2 模型性能衡量方法

请添加图片描述

如果曲线A完全“包住”曲线B，则A的性能优于B（P和R越高，代表算法分类能力越强）；
曲线AB发生交叉时：以PR曲线下的面积作为衡量指标（这个指标通常难以计算）；
使用 “平衡点”（P=R时的取值），值越大代表效果越优（这个点过于简化，更常用的是F1-score）。

7. ROC曲线

真阳性率（真实1里面正确预测为1的概率）： $\frac{TP}{TP+FN}$

假阳性率（真实0里面错误预测为1的概率）： $\frac{FP}{FP+TN}$

7.1 绘制方法

ROC曲线以假阳性率FPR为横坐标、以真阳性率TPR为纵坐标，以下面的数据为例说明一下绘制方法：

	1	2	3	4	5
预测为正类的概率 score	0.9	0.8	0.7	0.5	0.3
实际类别 class	1	0	1	1	0

将每个样本的预测结果按照预测为正类的概率排序（上面已排序）
依次看每个样本

a) 对于样本1，将它的 score 0.9 作为阈值，即 score >= 0.9时样本预测为 1 ，反之预测为 0，得到以下混淆矩阵

真实1 真实0
预测1 1 0
预测0 2 2
b) 对于样本2，将它的 score 0.8 作为阈值，即 score >= 0.8时样本预测为 1 ，反之预测为 0，得到以下混淆矩阵

真实1 真实0
预测1 1 1
预测0 2 1
c) ……

d) ……

e) 对于样本5，将它的 score 0.3 作为阈值，即 score >= 0.3时样本预测为 1 ，反之预测为 0，得到以下混淆矩阵

真实1 真实0
预测1 3 2
预测0 0 0
根据上面的混淆矩阵，依次算出 5 对(FPR, TPR)，以假阳性率FPR为横坐标、以真阳性率TPR为纵坐标，将这些点连接起来即得到 ROC 曲线。

7.2 模型性能衡量方法

请添加图片描述

ROC曲线下的面积（AUC）作为衡量指标，面积越大，性能越好。

7.3 AUC的计算

在有M个正样本，N个负样本的数据集里。一共有MN对样本（一对样本即一个正样本与一个负样本）。统计这MN对样本里，正样本的预测概率大于负样本的预测概率的个数：

$\frac{\sum I(P_\text{正样本},P_\text{负样本})}{M^*N}$

其中：

$I(P_\text{正样本},P_\text{负样本})=\begin{cases}1,P_\text{正样本}>P_\text{正样本}\\0.5,P_\text{正样本}=P_\text{负样本}\\0,P_\text{正样本}<P_\text{负样本}\end{cases}$

http://www.lryc.cn/news/160797.html

相关文章：

c++静态成员

go-zero直连与etcd服务注册中心

Kotlin File writeText appendText appendBytes readBytes readText

常见缺少msvcp140.dll问题及解决方法，分享多种方法帮你解决

【K210+ESP8266图传上位机开发】TCP server + JPEG图像解析上位机开发

Linux查看当前文件夹的大小

YOLO目标检测——密集人群人头数据集+已标注yolo格式标签下载分享

论文精读 —— Gradient Surgery for Multi-Task Learning

【VS Code插件开发】常见自定义命令（七）

Spring Cloud服务发现与注册的原理与实现

FFmpeg入门之简单介绍

新版DBeaver调整编辑窗口字体大小

《vue3实战》运用push（）方法实现电影评价系统的添加功能

JavaScript学习笔记02

短信过滤 APP 开发

【计算机基础知识7】垃圾回收机制与内存泄漏

[学习笔记]CS224W

华为云API对话机器人CBS的魅力—实现简单的对话操作

精益制造、质量管控，盛虹百世慧共同启动MOM（制造运营管理）

【科研论文配图绘制】task7密度图绘制

【山河送书第十期】：《Python 自动化办公应用大全》参与活动，送书两本！！

Java多线程——同步

Vue+NodeJS实现邮件发送

Go语言网络编程（socket编程）TCP粘包

【再识C进阶2(中)】详细介绍指针的进阶——函数指针数组、回调函数、qsort函数

PaddleOCR学习笔记3-通用识别服务

9.8 校招实习内推面经

web前段与后端的区别优漫动游

局域网ntp服务器设置（windows时间同步服务器NetTime）（ubuntu systemd-timesyncd ntp客户端）123端口、ntp校时