当前位置: 首页 > news >正文

数据挖掘——朴素贝叶斯分类

数据挖掘——朴素贝叶斯分类

  • 朴素贝叶斯分类
    • 极大后验假设
    • 独立性假设
    • 贝叶斯分类器总结

朴素贝叶斯分类

什么是分类?

  • 找出描述和区分数据类或概念的模型,以便能够使用模型预测未知的对象的类标号

概念区分

  • 分类与回归
    • 分类是预测分类(离散、无序)标号
    • 回归建立连续值函数模型

分类与聚类

  • 分类是有监督学习,提供了训练元组的类标号
  • 聚类是无监督学习,不依赖有类标号的训练实例

极大后验假设

  • 极大后验假设定义:学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(Maximumaposteriori:MAP)

  • 确定MAP的方法是用贝叶斯公式计算每个候选假设的后验概率,计算式如下:
    h M A P = max ⁡ h ∈ H P ( h ∣ D ) = max ⁡ h ∈ H P ( D ∣ h ) P ( h ) / P ( D ) = max ⁡ h ∈ H P ( D ∣ h ) P ( h ) h_{M A P}=\max _{h \in H} P(h \mid D) =\max _{h \in H} \mathrm{P}(D \mid h) \mathrm{P}(h) / P(D)=\max _{h \in H} \mathrm{P}(D \mid h) \mathbf{P}(\mathrm{h}) hMAP=hHmaxP(hD)=hHmaxP(Dh)P(h)/P(D)=hHmaxP(Dh)P(h)
    在这里插入图片描述
    在这里插入图片描述
    计算 P < a 1 , a 2 , … , a n > ∣ h ) P<a_1,a_2,…,a_n > | ℎ) P<a1,a2,,an>h) 时,当维度过高时,可用数据变得很稀疏,难以获得结果。

独立性假设

假设D的属性𝐚𝐢之间相互独立
在这里插入图片描述
优点

  • 获得估计的 P ( a i ∣ h ) P(a_i | h ) P(aih) P ( < a 1 , a 2 , … , a n > ∣ h ) P(<a_1,a_2,…,a_n > | h ) P(<a1,a2,,an>h)容易很多
  • 如果D的属性之间不满足相互独立,朴素贝叶斯分类的结果是贝叶斯分类的近似

例题:
链接:https://www.nowcoder.com/questionTerminal/f25c433b9b0d42659d2cf3b39a8367ae

假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:
A.这个被重复的特征在模型中的决定作用会被加强
B.模型效果相比无重复特征的情况下精确度会降低
C.如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。
D.当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题
E.NB可以用来做最小二乘回归
F.以上说法都不正确

答案:BD
解析:总结就是,对于特征独立型的模型,当存在高度相关特征的时候,由于冗余特征并没有增加数据的信息,但是它却对模型分类的 置信度产生了影响,冗余特征产生的效果也会叠加在模型中,从而使得模型效果变差。
根据公式,假如特征重复,那么p(x1/y)就会双倍,对于小于1得数相乘后概率会变小,所以特征会变弱,因此这个重复的特征在模型中的决定作用会减弱。

贝叶斯分类器总结

本质上是同时考虑了先验概率和似然概率的重要性

特点

  • 属性可以离散、也可以连续
  • 数学基础坚实、分类效率稳定
  • 对缺失和噪声数据不太敏感
  • 属性如果不相关,分类效果很好
http://www.lryc.cn/news/516035.html

相关文章:

  • unity中的UI系统---GUI
  • 鸿蒙Flutter实战:15-Flutter引擎Impeller鸿蒙化、性能优化与未来
  • C语言冒泡排序教程简介
  • Fabric链码部署测试
  • k620老显卡,装cuda.等。
  • 网站常用功能模块-鉴权
  • 直接插入排序、折半插入排序、2路插入排序、希尔排序
  • FQ-GAN代码解析
  • 如何恢复已删除的 Telegram 消息 [iOSamp;Android]
  • asp.net core中的 Cookie 和 Session
  • Python实现一个简单的 HTTP echo 服务器
  • Ruby 中文编码
  • 淘金优化算法的信息共享与更新机制改进
  • Python中的ast.literal_eval:安全地解析字符串为Python对象
  • 【AI数学基础】线性代数:内积和范数
  • Go语言的 的泛型(Generics)核心知识
  • C++vector
  • 如何配置【Docker镜像】加速器+【Docker镜像】的使用
  • Docker--Docker Network(网络)
  • Vue项目中生成node_modules文件夹的两种常用方法及npm优势
  • 如何在 Ubuntu 22.04 上安装 Cassandra NoSQL 数据库教程
  • leetcode 面试经典 150 题:轮转数组
  • 如何在 Mac 上轻松恢复语音备忘录
  • C++ 基础概念: 未定义行为(Undefined Behavior)
  • Rad Studio 11.3 Alexandria 3236a(DELPHI 11.3)官方ISO/百度云盘 下载地址
  • vue3-watchEffect异步依赖收集
  • 微信小程序中 “页面” 和 “非页面” 的区别
  • 【蓝桥杯】43709.机器人繁殖
  • 【机器学习】机器学习的基本分类-自监督学习(Self-supervised Learning)
  • R shiny app | 网页应用 空格分隔的文本文件在线转csv