当前位置: 首页 > news >正文

朴素贝叶斯笔记

贝叶斯公式

在A 条件成立下,B的概率等于B的概率*在B条件成立下,A的概率/A的概率,推导

假设一个学校中男生占总数的60%,女生占总数的40%。并且男生总是穿长裤,女生则一半穿长裤、一半穿裙子。

1.正向概率。随机选取一个学生,他(她)穿长裤和穿裙子的概率是多大?这就简单了,题目中已经

告诉大家男生和女生对于穿着的概率。

2.逆向概率。迎面走来一个穿长裤的学生,你只看得见他(她)穿的是否是长裤,而无法确定他

(她)的性别,你能够推断出他(她)是女生的概率有多大?

性别

长裤

裙子

男60%

100%

0%

女40%

50%

50%

假设总学生为U,穿长裤的男生的个数为:

=U*60%*100%

穿长裤的女生个数为:

=U*40%*50%

第2问的问题是:穿长裤的女生的概率,首先计算穿长裤的总人数

穿长裤的女生的概率:

合并得:

=

分母表示男生中穿长裤的人数和女生中穿长裤的人数的总和,就是P(Pants)

假设穿长裤用A表示,女生用B表示:

伯努利朴素贝叶斯API

sklearn.naive_bayes.BernoulliNB

高斯朴素贝叶斯API

sklearn.naive_bayes.GuassianNB

多项式朴素贝叶斯API

sklearn.naive_bayes.MultinomialNB

实例

1、处理鸢尾花数据,为连续性数据,应使用高斯朴素贝叶斯

from sklearn.naive_bayes import MultinomialNB,BernoulliNB,GaussianNB
import pandas as pd
from sklearn.model_selection import train_test_split#读取数据
path = r'D:\python\2023\机器学习\分类data\iris.csv'
df = pd.read_csv(path)
df.columns = ['type1','type2','type3','type4','target']
#df = load_iris()
#print(df)
#取出目标值及特征值
y = df['target']
x = df.drop('target',axis=1)
print(x)
#将数据进行分为训练集及测试集
x_train,x_test,y_train,y_test = train_test_split(x,y,train_size=0.25)
#特征工程#数据建模算法
bys = GaussianNB()
bys.fit(x_train,y_train)
y_predict = bys.predict(x_test)
print('预测结果:',y_predict)
print('高斯朴素贝叶斯的正确率为:',bys.score(x_test,y_test))

若用多项式朴素贝叶斯

from sklearn.naive_bayes import MultinomialNB,BernoulliNB,GaussianNB
import pandas as pd
from sklearn.model_selection import train_test_split#读取数据
path = r'D:\python\2023\机器学习\分类data\iris.csv'
df = pd.read_csv(path)
df.columns = ['type1','type2','type3','type4','target']
#df = load_iris()
#print(df)
#取出目标值及特征值
y = df['target']
x = df.drop('target',axis=1)
print(x)
#将数据进行分为训练集及测试集
x_train,x_test,y_train,y_test = train_test_split(x,y,train_size=0.25)
#特征工程#数据建模算法
bys = MultinomialNB()#默认alpha=1.0
bys.fit(x_train,y_train)
y_predict = bys.predict(x_test)
print('预测结果:',y_predict)
print('多项式朴素贝叶斯的正确率为:',bys.score(x_test,y_test))

2、多项式朴素贝叶斯处理新闻数据

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_splitnews = fetch_20newsgroups(subset='all')
#数据分割
x_train,x_test,y_train,y_test = train_test_split(news.data,news.target,test_size=0.25)#特征抽取
tf = TfidfVectorizer()
#以训练集当中的词的列表进行每篇文章重要性统计
x_train = tf.fit_transform(x_train)print(tf.get_feature_names())x_test = tf.transform(x_test)#进行多项式朴素贝叶斯预测
mlt = MultinomialNB(alpha=1.0)
print(x_train)
mlt.fit(x_train,y_train)
y_predict = mlt.predict(x_test)print('预测文章类别是:',y_predict)
print('准确率是:',mlt.score(x_test,y_test))
http://www.lryc.cn/news/19416.html

相关文章:

  • 【GUI】用于电动助力车性能分析的GUI(Matlab代码实现)
  • Android:反编译apk踩坑/apktool/dex2jar/JDGUI
  • React 跨域的配置
  • Elasticsearch7.8.0版本进阶——持久化变更
  • CF Edu 127 A-E vp补题
  • 剑指 Offer 05. 替换空格
  • 通过操作Cortex-A7核,串口输入相应的命令,控制LED灯进行工作
  • Python实现某du文库vip内容下载,保存成PDF
  • vue3.0 模板语法
  • 【GlobalMapper精品教程】054:标签(标注)功能案例详解
  • 超详细树状数组讲解(+例题:动态求连续区间和)
  • 【学习笔记】AGC055
  • 墨者——内部文件上传系统漏洞分析溯源 内部文件上传系统漏洞分析溯源
  • 5.2 Python if语句
  • ubuntu gerrit 配置
  • 运动蓝牙耳机什么牌子好,运动蓝牙耳机品牌推荐
  • (7)C#传智:方法及参数、重载(第7天)
  • Python 函数式编程
  • pandas读取EXCEL列名重复问题解决——pandas设置多行为列名(多层列名)
  • CMake常用语法
  • Java知识复习(一)基础知识
  • springboot+vue.js校园车辆用车预约管理系统
  • 【 K8s 源码之调度学习】Pod 间亲和性和反亲和性的源码分析
  • 计及绿证交易及碳排放的含智能楼宇微网优化调度(Matlab代码实现)
  • 场景扩展,体验升级 | DBMotion新增无公网数据库迁移、支持监控报警等多项功能
  • 【正点原子FPGA连载】第十五章eMMC读写测试实验 摘自【正点原子】DFZU2EG_4EV MPSoC之嵌入式Vitis开发指南
  • i2c子系统
  • 【K3s】第17篇 Helm版本和支持的Kubernetes版本对照表
  • 如何自己搭建一个ai画图系统? 从0开始云服务器部署novelai
  • SpringSecurity过滤请求导致的系统bug