当前位置: 首页 > news >正文

吃瓜教程3|决策树

ID3算法

假定当前样本集合D中第k类样本所占比例为pk,则样本集合D的信息熵定义为

信息增益

C4.5算法

ID3算法存在一个问题,就是偏向于取值数目较多的属性,因此C4.5算法使用了“增益率”(gain ratio)来选择划分属性

CART算法

使用属性α划分后的基尼指数为

剪枝处理

* 预剪枝(prepruning):在构造的过程中先评估,再考虑是否分支。  
* 后剪枝(post-pruning):在构造好一颗完整的决策树后,自底向上,评估分支的必要性。  

评估指的是性能度量,即决策树的泛化性能。 

连续值与缺失值处理

连续值

* 首先将α的所有取值按升序排列,所有相邻属性的均值作为候选划分点(n-1个,n为α所有的取值数目)。  
* 计算每一个划分点划分集合D(即划分为两个分支)后的信息增益。  
* 选择最大信息增益的划分点作为最优划分点。

缺失值

假定为样本集中的每一个样本都赋予一个权重,根节点中的权重初始化为1,则定义:

通过在样本集D中选取在属性α上没有缺失值的样本子集,计算在该样本子集上的信息增益,最终的信息增益等于该样本子集划分后信息增益乘以样本子集占样本集的比重。即:

对于(2):若该样本子集在属性α上的值缺失,则将该样本以不同的权重(即每个分支所含样本比例)划入到所有分支节点中。该样本在分支节点中的权重变为:

多变量决策树

对于高维数据空间,决策树形成的分类边界有一个特点:轴平行,引入多变量决策树实现斜划分,分裂节点变为k1*x1+k2*x2+...

http://www.lryc.cn/news/211850.html

相关文章:

  • springboot动态数据源【非伪数据源】
  • 如何改善设备综合效率(OEE)并提高工厂的生产力
  • 一文接入Android阿里Sophix热更新
  • 【高阶数据结构】并查集和图
  • Git 提交时提示 GPG 签名错误
  • vite+vue3实现 tomcat 的本地部署
  • docker+playwright
  • php框架路由实现
  • 在CentOS 7中手工打造和运行xml文件配置的Servlet,然后使用curl、浏览器、telnet等三种工具各自测试
  • 单例模式.
  • 2023年MathorCup高校数学建模挑战赛大数据挑战赛赛题浅析
  • c++小惊喜——stringstream
  • ubuntu 18.04 编译安装flexpart 10.4(2023年) —— 筑梦之路
  • 深度学习(生成式模型)——DDIM:Denoising Diffusion Implicit Models
  • HashMap的遍历方式 -- 好几次差点记不起来总结了一下
  • PostgreSQL 两表关联更新sql
  • R2R 的一些小tip
  • UML中类之间的六种主要关系
  • 机器学习-朴素贝叶斯之多项式模型
  • 下载的nginx证书转换成tomcat证书格式
  • 计算机毕业设计选题推荐-社区志愿者服务微信小程序/安卓APP-项目实战
  • ES6中数值扩展
  • sql-50练习题11-15
  • 【多线程面试题十九】、 公平锁与非公平锁是怎么实现的?
  • 3.4每日一题(变量可分离方程通解)
  • LabVIEW背景颜色设为和其他程序或图像中一样
  • 图表参考线,数据对比一目了然_三叠云
  • 【深度学习】Transformer、GPT、BERT、Seq2Seq什么区别?
  • 数据结构与算法之LRU: 实现 LRU 缓存算法功能 (Javascript版)
  • Matlab | 基于二次谱提取地震数据的地震子波