当前位置：首页 > news >正文

【深度学习入门_机器学习理论】朴素贝叶斯(NaiveBayes)

news 2025/7/4 19:17:56

本部分主要为机器学习理论入门_熟悉朴素贝叶斯算法，书籍参考 “ 统计学习方法（第二版）”。

学习目标： 熟悉条件概率、先验概率、后验概率、全概率，熟悉朴素贝叶斯算法原理与推判断过程；熟悉参数估计；熟悉算法具体使用场景与实际应用。

个人理解下来其实就是一句话：本算法就是根据所有已知参数来计算后验概率问题。

在这里插入图片描述

一、统计学基础概念

条件概率:
就是事件A在事件B发生的条件下发生的概率。条件概率表示为 $P （ A ∣ B ）$ ，读作“A在B发生的条件下发生的概率”。
先验概率:
在贝叶斯统计中，某一不确定量 p 的先验概率分布是在考虑”观测数据”前，能表达 p 不确定性的概率分布。它旨在描述这个不确定量的不确定程度，而不是这个不确定量的随机性。这个不确定量可以是一个参数，或者是一个隐含变量。
后验概率:
在贝叶斯统计中，一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。同样，后验概率分布是一个未知量（视为随机变量）基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。
全概率:
是对一复杂事件A的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。

举个例子说明下，应该就会有更好的理解了

eg. 要确定一个瓜是好瓜还是坏瓜，用判别模型的方法是从历史数据中学习到模型，然后通过提取这个瓜的特征来预测出这只瓜是好瓜的概率，是坏瓜的概率。
在这里插入图片描述
通过上述西瓜的数据集来看:

条件概率，就是在条件为瓜的颜色是青绿的情况下，瓜是好瓜的概率
先验概率，就是常识、经验、统计学所透露出的“因”的概率，即瓜的颜色是青绿的概率。
后验概率，就是在知道“果”之后，去推测“因”的概率，也就是说，如果已经知道瓜是好瓜，那么瓜的颜色是青绿的概率是多少。后验和先验的关系就需要运用贝叶斯决策理论来求解。

二、朴素贝叶斯概念

监督学习分为生成模型 (generative model) 与判别模型 (discriminative model)，贝叶斯方法是生贝叶斯方法正是生成模型的代表 (还有隐马尔科夫模型)。在概率论与统计学中，贝叶斯定理 (Bayes’ theorem) 表达了一个事件发生的概率，而确定这一概率的方法是基于与该事件相关的条件先验知识 (prior knowledge)。而利用相应先验知识进行概率推断的过程为贝叶斯推断 (Bayesian inference)。

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯（Naive Bayes）分类是贝叶斯分类中最简单，也是常见的一种分类方法。

朴素贝叶斯算法的核心思想是通过考虑特征概率来预测分类，即对于给出的待分类样本，求解在此样本出现的条件下各个类别出现的概率，哪个最大，就认为此待分类样本属于哪个类别。

朴素贝叶斯算法是一种基于概率统计的分类方法，它利用贝叶斯定理和特征条件独立假设来预测样本的类别。尽管其假设特征之间相互独立在现实中往往不成立，但朴素贝叶斯分类器因其计算简单、效率高、对缺失数据不敏感等优点，在文本分类、垃圾邮件过滤、情感分析等领域有着广泛的应用。

三、朴素贝叶斯算法原理与推判过程

3.1 贝叶斯定理

条件概率 (conditional probability) 是指在事件 B 发生的情况下，事件 A 发生的概率。通常记为 P(A | B)。
在这里插入图片描述

因此
在这里插入图片描述
可得

由此可以推出贝叶斯公式

这也是条件概率的计算公式。

此外，由全概率公式，可得条件概率的另一种写法：

在这里插入图片描述
其中样本空间由A和A’构成，由此求得事件B的概率。

3.2 贝叶斯推断

贝叶斯公式中，P(A)称为"先验概率"（Prior probability），即在B事件发生之前，对A事件概率的一个判断。
P(A|B)称为"后验概率"（Posterior probability），即在B事件发生之后，对A事件概率的重新评估。
P(B|A)/P(B)称为"可能性函数"（Likelyhood），这是一个调整因子，使得预估概率更接近真实概率。
所以，条件概率可以理解成下面的式子：后验概率＝先验概率ｘ调整因子
这就是贝叶斯推断的含义。我们先预估一个"先验概率"，然后加入实验结果，看这个实验到底是增强还是削弱了"先验概率"，由此得到更接近事实的"后验概率"。因为在分类中，只需要找出可能性最大的那个选项，而不需要知道具体那个类别的概率是多少，所以为了减少计算量，全概率公式在实际编程中可以不使用。