当前位置: 首页 > news >正文

数据挖掘常见算法(关联)

Apriori算法

Apriori算法基于频繁项集性质的先验知识,使用由下至上逐层搜索的迭代方法,即从频繁1项集开始,采用频繁k项集搜索频繁k+1项集,直到不能找到包含更多项的频繁项集为止。

Apriori算法由以下步骤组成,其中的核心步骤是连接步和剪枝步:

1) 连接步

2) 剪枝步

eg1:

eg2:

TIDItemSet
1啤酒,尿布,牙膏
2尿布,牙膏,面包,牛奶
3啤酒,牙膏,牛奶
4尿布,牙膏,面包
5尿布,牙膏,面包,牛奶

(1)写出Apriori算法生成频繁项目集的结果(MinSupport=60%)

Apriori算法——不足

①对数据库的扫描次数过多

②Apriori算法会产生大量的中间项集

③采用唯一支持度,没有将各个属性的重要程度的不同都考虑进去

④算法的适应面窄

Apriori算法——改进

①通过减少扫描数据库的次数改进I/O的性能;

②改进产生频繁项集的计算性能;

③寻找有效的并行关联规则算法;

④引入抽样技术改进生成频繁项集的I/O和计算性能;

⑤扩展应用领域。比如展开定量关联规则、泛化关联规则及周期性的关联规则的研究。

FP-Growth算法

频繁模式树增长算法(Frequent Pattern Tree Growth)采用分而治之的基本思想,将数据库中的频繁项集压缩到一棵频繁模式树中,同时保持项集之间的关联关系。然后将这棵压缩后的频繁模式树分成一些条件子树,每个条件子树对应一个频繁项,从而获得频繁项集,最后进行关联规则挖掘。

FpGrowth算法的平均效率远高于Apriori算法,但它并不能保证高效率,它的效率依赖于数据集。Fptree还需要其他的开销,需要存储空间更大,使用FpGrowth算法前,首先需要对数据分析,在决策是否采用FpGrowth算法。

http://www.lryc.cn/news/385380.html

相关文章:

  • vue项目集成CanvasEditor实现Word在线编辑器
  • Redis Stream Redisson Stream
  • threadX netx 设置IP地址以及获取IP地址
  • 计算机毕业设计hadoop+spark+hive知识图谱医生推荐系统 医生数据分析可视化大屏 医生爬虫 医疗可视化 医生大数据 机器学习 大数据毕业设计
  • lammps已经运算结束,有数据忘记算:rerun 命令
  • CARLA自动驾驶模拟器基础
  • 华为HCIP Datacom H12-821 卷16
  • Python学习打卡:day17
  • Spring Cloud Gateway 与 Nacos 的完美结合
  • vue2 element ui 表单 动态增加表单项 表单项值不可重复 select多选
  • [数据集][目标检测]电力场景下电柜箱门把手检测数据集VOC+YOLO格式1167张1类别
  • OverTheWire Bandit 靶场通关解析(上)
  • 【Python实战因果推断】4_因果效应异质性4
  • 大模型推理知识总结
  • [笔记] keytool 导入服务器证书和证书私钥
  • 【2024-热-办公软件】ONLYOFFICE8.1版本桌面编辑器测评
  • C# 23设计模式备忘
  • STL中的迭代器模式:将算法与数据结构分离
  • TCP、UDP详解
  • 【脚本工具库】批量下采样图像(附源码)
  • Web渗透:文件包含漏洞
  • 什么是yum源?如何对其进行配置?
  • Node.js全栈指南:认识MIME和HTTP
  • 基于weixin小程序智慧物业系统的设计
  • 成功解决​​​​​​​TypeError: __call__() got an unexpected keyword argument ‘first_int‘
  • vue3用自定义指令实现按钮权限
  • Nuxt3:当前页面滚动到指定位置
  • word图题表题公式按照章节编号(不用题注)
  • 最小生成树模型
  • 基于盲信号处理的声音分离-基于改进的信息最大化的ICA算法