当前位置: 首页 > news >正文

【Python机器学习】分类器的不确定估计——决策函数

        scikit-learn接口的分类器能够给出预测的不确定度估计,一般来说,分类器会预测一个测试点属于哪个类别,还包括它对这个预测的置信程度。

        scikit-learn中有两个函数可以用于获取分类器的不确定度估计:decidion_function和predict_proba。

        以一个二维数据集为例:

import mglearn.tools
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import make_circles
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as pltX,y=make_circles(noise=0.25,factor=0.5,random_state=1)y_named=np.array(['type0','type1'])[y]
#所有数组的划分方式都是一致的
X_train,X_test,y_train_named,y_test_named,y_train,y_test=train_test_split(X,y_named,y,random_state=0
)
#梯度提升模型
gbrt=GradientBoostingClassifier(random_state=0)
gbrt.fit(X_train,y_train_named)

        对于二分类的情况,decidion_function返回值的形状是(n_samples,),为每个样本都返回一个浮点数:

print('X_test形状:{}'.format(X_test.shape))
print('Decision_function 形状:{}'.format(gbrt.decision_function(X_test).shape))

对于类别1来说,值代表模型对数据点属于“正”类的置信程度。正值代表对正类的偏好,负值代表对反类的偏好,还可以通过查看决策值的正负号来展示预测值:

print('Decision_function:{}'.format(gbrt.decision_function(X_test)[:10]))
print('正负-Decision_function:{}'.format(gbrt.decision_function(X_test)>0))
print('分类:{}'.format(gbrt.predict(X_test)))

对于二分类问题,反类始终是classes_属性的第一个元素,正类是第二个元素,因此,如果想要完全再现predict的输出,需要利用classes_属性:

greater_zore=(gbrt.decision_function(X_test)>0).astype(int)
pred=gbrt.classes_[greater_zore]
print('索引是否与输出相同:{}'.format(np.all(pred==gbrt.predict(X_test))))

decidion_function可以在任意范围取值,取决于数据和参数模型:

decision_function=gbrt.decision_function(X_test)
print('decision_function结果的最大值和最小值:{:.3f}、{:.3f}'.format(np.max(decision_function),np.min(decision_function)))

利用颜色编码画出所有点的decidion_function,还有决策边界:

plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
fig,axes=plt.subplots(1,2,figsize=(13,5))
mglearn.tools.plot_2d_separator(gbrt,X,ax=axes[0],alpha=.4,fill=True,cm=mglearn.cm2)
scores_image=mglearn.tools.plot_2d_scores(gbrt,X,ax=axes[1],alpha=.4,cm=mglearn.ReBl)
for ax in axes:mglearn.discrete_scatter(X_test[:, 0], X_test[:, 1], y_test, markers='^', ax=ax)mglearn.discrete_scatter(X_train[:, 0], X_train[:, 1], y_train, markers='o', ax=ax)ax.set_xlabel('特征0')ax.set_ylabel('特征1')
cbar=plt.colorbar(scores_image,ax=axes.tolist())
axes[0].legend(['测试分类0','测试分类1','训练分类0','训练分类1'],ncol=4,loc=(.1,1.1))
plt.show()

http://www.lryc.cn/news/279544.html

相关文章:

  • 云原生周刊:K8sGPT 加入 CNCF | 2024.1.8
  • LightGBM原理和调参
  • ROS无人机开发常见错误
  • Baumer工业相机堡盟工业相机如何联合NEOAPI SDK和OpenCV实现相机图像转换为AVI视频格式(C#)
  • 第一次面试总结 - 迈瑞医疗 - 软件测试
  • 利用Qt输出XML文件
  • OpenWrt智能路由器Wan PPPoE拨号配置方法
  • (十一)IIC总线-AT24C02-EEPROM
  • 现在做电商还有发展空间吗?哪个平台的盈利比较大?
  • 多节点 docker 部署 elastic 集群
  • 2023年全国职业院校技能大赛软件测试赛题—单元测试卷⑨
  • C++核心编程——文件操作
  • 【REST2SQL】05 GO 操作 达梦 数据库
  • GitLab 502 Whoops, GitLab is taking too much time to respond. 解决
  • vi ~/.bashrc 后如何编辑并退出
  • KVM Vcpu概述
  • linux服务器ftp部署
  • NSIS 安装windows 安装包(包括QT和MFC)
  • K8S----PVPVCSC
  • RSIC-V“一芯”学习笔记(一)——概述
  • MATLAB读取图片并转换为二进制数据格式
  • 时序数据库
  • 【第一次使用finalshell连接虚拟机内的centos】小白处理方式
  • Pinia 踩坑记录
  • 在ASP.NET MVC中使用JQuery提供的弹出窗口(模态窗口)
  • 基本工具配置
  • 计算机网络——应用层(3)
  • 配置ssh实现互相免密登陆
  • 【UEFI基础】EDK网络框架(ARP)
  • Linux进阶课:目录(文件夹)与文件操作