当前位置: 首页 > news >正文

机器学习之贝叶斯分类器和混淆矩阵可视化

贝叶斯分类器

目录

  • 贝叶斯分类器
    • 1 贝叶斯分类器
      • 1.1 概念
      • 1.2算法理解
      • 1.3 算法导入
      • 1.4 函数
    • 2 混淆矩阵可视化
      • 2.1 概念
      • 2.2 理解
      • 2.3 函数导入
      • 2.4 函数及参数
      • 2.5 绘制函数
    • 3 实际预测
      • 3.1 数据及理解
      • 3.2 代码测试

1 贝叶斯分类器

1.1 概念

贝叶斯分类器是基于贝叶斯定理构建的分类方法,它通过计算后验概率来对数据进行分类。

1.2算法理解

在这里插入图片描述

  • P(A|B) 是在事件B发生的条件下事件A发生的概率,称为A的后验概率。
  • P(B|A) 是在事件A发生的条件下事件B发生的概率。
  • P(A)是事件A发生的概率,称为A的先验概率。
  • P(B)是事件B发生的概率。

在这里插入图片描述

现在,我们使用朴素贝叶斯牙类器莱计算给定特征值下每个类别的后验率:
P(D=0|A=1,B=1,C=0)=P(D=0)P(A=1ID=0)P(B=1|D=0)P(C=0|D=0)=0.50.6670.3330.667=0.08335583549429845
P(D=1|A=1,B=1,C=0)=P(D=1)P(A=1|D=1)P(B=1|D=1)P(C=0ID=1)0.50.3330.6670.333=0.037499999999999996

1.3 算法导入

from sklearn.naive_bayes import MultinomialNB

1.4 函数

  • MultinomialNB()
  • fit(x_tr,y_tr)
  • predict(x_tr)

2 混淆矩阵可视化


2.1 概念

混淆矩阵(Confusion Matrix),也称为错误矩阵,是一种特别适用于监督学习的评估分类模型性能的工具,尤其是在分类问题中。混淆矩阵展示了实际类别与模型预测类别之间的关系。

2.2 理解

在这里插入图片描述

  • TP(True Positive):正确预测到的正类样本数。
  • FN(False Negative):实际为正类但预测为负类的样本数。
  • FP(False Positive):实际为负类但预测为正类的样本数。
  • TN(True Negative):正确预测到的负类样本数。

基于混淆矩阵,可以计算出以下几种性能指标:

  • 准确率(Accuracy):(TP + TN)/(TP + TN + FP + FN)
  • 精确率(Precision):TP/(TP + FP)
  • 召回率(Recall)或真正例率(True Positive Rate, TPR):TP/(TP + FN)
  • F1分数(F1 Score): 2 *(Precision * Recall)/(Precision + Recall)
  • 假正例率(False Positive Rate, FPR):FP/(FP + TN)

2.3 函数导入

from sklearn.metrics import confusion_matrix

2.4 函数及参数

metrics.classification_report(y_te,te_pr,digits=6)

  • y_te,已知道结果类别
  • te_pr,训练模型预测的结果类别
  • digits=6,结果保留的小数点

2.5 绘制函数

代码展示:

def cm_plot(y,y_pr):cm = confusion_matrix(y,y_pr)plt.matshow(cm,cmap=plt.cm.Blues)plt.colorbar()for x in range(len(cm)):for y in range(len(cm)):plt.annotate(cm[x,y],xy=(y,x),horizontalalignment='center',verticalalignment='center')plt.ylabel('TRUE label')plt.xlabel('PREDICTED label')return plt

3 实际预测


3.1 数据及理解

第一列为次序,需要删除,最后一列为结果类别,其他为特征数据。
在这里插入图片描述

3.2 代码测试

代码展示:

import pandas as pd
from sklearn.naive_bayes import MultinomialNB
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn import metricsdef cm_plot(y,y_pr):cm = confusion_matrix(y,y_pr)plt.matshow(cm,cmap=plt.cm.Blues)plt.colorbar()for x in range(len(cm)):for y in range(len(cm)):plt.annotate(cm[x,y],xy=(y,x),horizontalalignment='center',verticalalignment='center')plt.ylabel('TRUE label')plt.xlabel('PREDICTED label')return pltdata = pd.read_csv('iris.csv')
data = data.drop(['1'],axis=1)
x = data.drop(['0'],axis=1)
y = data['0']x_tr,x_te,y_tr,y_te = \train_test_split(x, y, test_size=0.2,random_state=0)by = MultinomialNB()
by.fit(x_tr,y_tr)
tr_pr = by.predict(x_tr)
cm_plot(tr_pr,y_tr).show()
te_pr = by.predict(x_te)
cm_plot(te_pr,y_te).show()
print(metrics.classification_report(y_te,te_pr,digits=6))

运行结果:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

http://www.lryc.cn/news/518618.html

相关文章:

  • 关于大数据的基础知识(一)——定义特征结构要素
  • 2025 GitCode 开发者冬日嘉年华:AI 与开源的深度交融之旅
  • 【MyBatis-Plus 进阶功能】开发中常用场景剖析
  • 【C++/控制台】2048小游戏
  • Linux 中 top 命令的使用与实例解读
  • C++ STL 中的 `unordered_map` 和 `unordered_set` 总结
  • 机器学习基础-概率图模型
  • 【MySQL】九、表的内外连接
  • 芯片详细讲解,从而区分CPU、MPU、DSP、GPU、FPGA、MCU、SOC、ECU
  • halcon三维点云数据处理(十)locate_cylinder_3d
  • vue(2,3), react (16及以上)开发者工具资源
  • 2025年华为OD上机考试真题(Java)——整数对最小和
  • 进程间通信——网络通信——UDP
  • 【我的 PWN 学习手札】IO_FILE 之 FSOP
  • 新兴的开源 AI Agent 智能体全景技术栈
  • 统计学习方法(第二版) 概率分布学习
  • 淺談Cocos2djs逆向
  • 【ROS2】RViz2加载URDF模型文件
  • Unity导入特效,混合模式无效问题
  • el-table自定义按钮控制扩展expand
  • opencv CV_TM_SQDIFF未定义标识符
  • 2024acl论文体悟
  • 【Git原理与使用】版本回退reset 详细介绍、撤销修改、删除文件
  • 反规范化带来的数据不一致问题的解决方案
  • 【Android】直接使用binder的transact来代替aidl接口
  • Python机器学习笔记(十八、交互特征与多项式特征)
  • 《跟我学Spring Boot开发》系列文章索引❤(2025.01.09更新)
  • 【AI进化论】 如何让AI帮我们写一个项目系列:将Mysql生成md文档
  • (已开源-AAAI25) RCTrans:雷达相机融合3D目标检测模型
  • Elasticsearch:在 HNSW 中提前终止以实现更快的近似 KNN 搜索