当前位置: 首页 > news >正文

秒懂算法 | 基于朴素贝叶斯算法的垃圾信息的识别

 

本文将带领大家亲手实现一个垃圾信息过滤的算法。

在正式讲解算法之前,最重要的是对整个任务有一个全面的认识,包括算法的输入和输出、可能会用到的技术,以及技术大致的流程。

本任务的目标是去识别一条短信是否为垃圾信息,即输入为一条文本信息,输出为二分类的分类结果。2002年,Paul Graham提出使用“贝叶斯推断”过滤垃圾邮件。1000封垃圾邮件可以过滤掉995封,且没有一个误判。另外,这种过滤器还具有自我学习的功能,会根据新收到的邮件,不断调整。收到的垃圾邮件越多,它的准确率就越高。

朴素贝叶斯算法是一种有监督的机器学习算法,即算法的实现包含了构建训练集、数据预处理、训练、在测试集上验证等步骤。在下文中首先介绍算法的理论基础,再逐一介绍代码实现算法的整个流程。

01、算法流程

算法的第一步是收集两组带有标签的信息训练集,正常信息和垃圾信息。接下来根据训练集计算概率。训练集越大,最终计算的概率精度越高,分类效果也会越好。具体来说,训练过程包含以下两步

1●解析训练集中所有信息,并提取每一个词。

2●统计每一个词出现在正常信息和垃圾信息的词频

根据这个初步统计结果可以实现一个垃圾信息的鉴别器。对于一个新的样本输入,可以提取每一个词并根据前面给出的贝叶斯公式进行计算,最终得到分类结果。下面对一个简单的样例进行手工模拟ÿ

http://www.lryc.cn/news/17114.html

相关文章:

  • SpringCloud - Feign远程调用
  • Eotalk Vol.03:结合 API DaaS,让使用数据更方便
  • 从零开始学习Java编程:一份详细指南
  • 电子技术——系统性分析反馈电压放大器
  • 【C语言进阶】结构体、位段、枚举、以及联合(共用体)的相关原理与使用
  • 《蓝桥杯每日一题》哈希·AcWing 2058. 笨拙的手指
  • Linux 定时任务调度(crontab)
  • C进阶:6.C语言文件操作
  • Linux环境变量
  • Kotlin-委托、代理和单例对象
  • 华为OD机试真题Python实现【报数】真题+解题思路+代码(20222023)
  • MacOS:Error message “error:0308010C:digital envelope routines::unsupported“
  • Java 异常处理,超详细整理,适合新手入门
  • 23年了,GOPATH和go.mod 还在冲突!
  • Could not connect to Redis at 127.0.0.1:6379: 由于目标计算机积极拒绝,无法连接。(极简解决办法)
  • 华为OD机试 - 优雅数组(Python)【2023-Q1 新题】
  • 【概念辨析】数组指针指针数组
  • python实战应用讲解-【语法基础篇】字典的创建及建模(附示例代码)
  • 华为OD机试真题Python实现【分糖果】真题+解题思路+代码(20222023)
  • 视频技术基础知识
  • Windows应用之——设置定时关机
  • 华为OD机试真题Python实现【 喊七】真题+解题思路+代码(20222023)
  • 国产蓝牙耳机哪个好用?国产好用的蓝牙耳机推荐
  • JAVA虚拟机JVM之内存模型
  • Java线程——常见方法
  • 机器学习:基于逻辑回归对某银行客户违约预测分析
  • MySQL数据库常用命令汇总(全网最全)
  • Bulletproofs++
  • 毕业设计(1)-AFLGO的安装
  • 基于Opencv的缺陷检测任务