当前位置：首页 > news >正文

分类评估指标

news 2025/8/5 9:53:56

文章目录

- 1. 混淆矩阵
- 2. Precision（精准率）
- 3. Recall（召回率）
- 4. F1-score
- 5. ROC曲线和AUC指标
- - 5.1 ROC 曲线
  - 5.2 绘制 ROC 曲线
  - 5.3 AUC 值
- 6. API介绍
- - 6.1 **分类评估报告api**
  - 6.2 **AUC计算API**
练习-电信客户流失预测
- 1. 数据集介绍
- 2. 处理流程
- 3. 案例实现
- 4. 小结

1. 混淆矩阵

在这里插入图片描述

混淆矩阵作用就是看一看在测试集样本集中：

真实值是正例的样本中，被分类为正例的样本数量有多少，这部分样本叫做真正例（TP，True Positive）
真实值是正例的样本中，被分类为假例的样本数量有多少，这部分样本叫做伪反例（FN，False Negative）
真实值是假例的样本中，被分类为正例的样本数量有多少，这部分样本叫做伪正例（FP，False Positive）
真实值是假例的样本中，被分类为假例的样本数量有多少，这部分样本叫做真反例（TN，True Negative）

True Positive ：表示样本真实的类别
Positive ：表示样本被预测为的类别

2. Precision（精准率）

精准率也叫做查准率，指的是对正例样本的预测准确率。即，真正例（预测对的正例）占预测结果中所有正例的比例。

在这里插入图片描述

3. Recall（召回率）

召回率也叫做查全率，指的是预测为真正例样本占所有真实正例样本的比重。即，真正例（预测对的正例）占真实结果中所有正例的比例。
在这里插入图片描述

例子：

样本集中有 6 个恶性肿瘤样本，4 个良性肿瘤样本，我们假设恶性肿瘤为正例，则：

模型 A： 预测对了 3 个恶性肿瘤样本，4 个良性肿瘤样本

真正例 TP 为：3
伪反例 FN 为：3
假正例 FP 为：0
真反例 TN：4
精准率：3/(3+0) = 100%
召回率：3/(3+3)=50%

4. F1-score

如果我们对模型的精度、召回率都有要求，希望知道模型在这两个评估方向的综合预测能力如何？则可以使用 F1-score 指标。

在这里插入图片描述

样本集中有 6 个恶性肿瘤样本，4 个良性肿瘤样本，我们假设恶性肿瘤为正例，则：

模型 A： 预测对了 3 个恶性肿瘤样本，4 个良性肿瘤样本

真正例 TP 为：3
伪反例 FN 为：3
假正例 FP 为：0
真反例 TN：4
精准率：3/(3+0) = 100%
召回率：3/(3+3)=50%
F1-score：(2*3)/(2*3+3+0)=67%

模型 B： 预测对了 6 个恶性肿瘤样本，1个良性肿瘤样本

真正例 TP 为：6
伪反例 FN 为：0
假正例 FP 为：3
真反例 TN：1
精准率：6/(6+3) = 67%
召回率：6/(6+0)= 100%
F1-score：(2*6)/(2*6+0+3)=80%

5. ROC曲线和AUC指标

5.1 ROC 曲线

ROC 曲线：我们分别考虑正负样本的情况：

正样本中被预测为正样本的概率，即：TPR （True Positive Rate）
负样本中被预测为正样本的概率，即：FPR （False Positive Rate）

在这里插入图片描述

ROC 曲线图像中，4 个特殊点的含义：

(0, 0) 表示所有的正样本都预测为错误，所有的负样本都预测正确
(1, 0) 表示所有的正样本都预测错误，所有的负样本都预测错误
(1, 1) 表示所有的正样本都预测正确，所有的负样本都预测错误
(0, 1) 表示所有的正样本都预测正确，所有的负样本都预测正确

5.2 绘制 ROC 曲线

假设：在网页某个位置有一个广告图片或者文字，该广告共被展示了 6 次，有 2 次被浏览者点击了。每次点击的概率如下：

样本	是否被点击	预测点击概率
1	1	0.9
3	1	0.8
2	0	0.7
4	0	0.6
5	0	0.5
6	0	0.4

绘制 ROC 曲线：

阈值：0.9

原本为正例的 1、3 号的样本中 3 号样本被分类错误，则 TPR = 1/2 = 0.5
原本为负例的 2、4、5、6 号样本没有一个被分为正例，则 FPR = 0

阈值：0.8

原本为正例的 1、3 号样本被分类正确，则 TPR = 2/2 = 1
原本为负例的 2、4、5、6 号样本没有一个被分为正例，则 FPR = 0

阈值：0.7

原本为正例的 1、3 号样本被分类正确，则 TPR = 2/2 = 1
原本为负类的 2、4、5、6 号样本中 2 号样本被分类错误，则 FPR = 1/4 = 0.25

阈值：0.6

http://www.lryc.cn/news/97283.html

相关文章：

OpenCV：图像直方图计算

用QFramework来重构祖玛游戏

生活杂记-显示器尺寸

在CSDN学Golang云原生（Kubernetes Pod无状态部署）

【论文阅读22】Label prompt for multi-label text classification

EasyExcel数据导出功能封装

通过web.xml来配置servlet程序

umi 创建的项目中，如何配置多个环境变量

Mysql 5.7 连接数爆满清理连接数

HTTPS工作原理

十大基础算法

Java---第八章（字符串-----String，StringBuilder 和 StringBuffer）

k8s集群的部署

设计模式——观察者模式

在Debian 12 上安装 PHP 5.6, 7.4

微服务——统一网关Getway

[ELK安装篇]：基于Docker虚拟容器化(主要LogStash)

纪录片《打铁文艺社》：从全美高中生电影节到多项国际赞誉，聚焦城市公共艺术的蜕变之路

VLAN---虚拟局域网

新的CoolSiC™槽沟MOSFET技术，用于低栅氧化物应力和高性能

【开源项目】低代码数据可视化开发平台-Datav

【自动话化运维】Ansible常见模块的运用

深入理解C语言中的字符指针初始化与用法

es添加索引命令行和浏览器添加索引--图文详解

Java 大数字运算之 BigDecimal 类

MySQL 8.0 OCP (1Z0-908) 考点精析-架构考点1：二进制日志文件（Binary log）

SpringBoot IOC与AOP（一）

JVM运行时数据区——方法区的垃圾回收