当前位置: 首页 > news >正文

决策树划分属性依据

划分依据

    • 基尼系数
    • 基尼系数的应用
    • 信息熵
    • 信息增益
    • 信息增益的使用
    • 信息增益准则的局限性

最近在学习项目的时候经常用到随机森林,所以对决策树进行探索学习。

基尼系数

基尼系数用来判断不确定性或不纯度,数值范围在0~0.5之间,数值越低,数据集越纯。
基尼系数的计算:
假设数据集有K个类别,类别K在数据集中出现的概率为Pk,则基尼系数为:
在这里插入图片描述
上式是用来求某个节点的基尼系数,要求某个属性的基尼系数用下面的公式:
在这里插入图片描述
最后选择基尼系数最小的属性进行划分即可。

基尼系数的应用

在决策树中,假如某个节点的基尼系数就是0,此时被分类到这个节点的数据集是纯的,意思就是按照此叶节点的父节点的分类方法来说,此叶节点都是同一个类别的,不需要再次分裂决策。

信息熵

信息熵和基尼系数作用相同,都是用来度量样本集合纯度的指标。
计算方法:
在这里插入图片描述
Pk是当前样本集合中第k类样本所占比例,Ent(D)(信息熵)越小,集合D的纯度越高。

这里约定当Pk为0时Ent(D)=0;

信息增益

计算公式:在这里插入图片描述
假设现在对集合D使用属性a来进行划分,属性a有v个取值,也就是有v个节点,上式中Dv是第v个节点就是取值为v的样本个数。

信息增益的使用

信息增益越大,说明使用属性a来划分所获得的纯度提升越大,决策树越好。

信息增益准则的局限性

从上面的公式可以看出,信息增益偏好可取值数目较多的属性,假如某个属性可取值达到了n,也就是每个样本都不一样,比如“编号”属性,那可以计算出这个属性的信息增益接近1,选择这样的属性来划分很可能不具有泛化能力。
改进:
使用增益率在这里插入图片描述
对于这个公式,当属性a的可取值越多时,则IV(a)会越大,增益率变小,进行了平衡。同样的,增益率准则也有局限,它对可取值较少的属性又有所偏好。

最终:先找出信息增益高于平均水平的属性,再从中选择增益率最高的即可。

http://www.lryc.cn/news/387837.html

相关文章:

  • 短视频利器 ffmpeg (2)
  • 【计算机毕业设计】基于Springboot的智能物流管理系统【源码+lw+部署文档】
  • 【2024】LeetCode HOT 100——图论
  • 解析Java中1000个常用类:Currency类,你学会了吗?
  • 5.x86游戏实战-CE定位基地址
  • istitle()方法——判断首字母是否大写其他字母小写
  • Linux实用命令练习
  • 刷题——二叉搜索树与双向链表
  • 【Linux】进程优先级 | 环境变量
  • 最新手动迁移WordPress方法
  • ChatGPT在程序开发中的应用:提升生产力的秘密武器
  • AI与Python共舞:如何利用深度学习优化推荐系统?
  • URLSearchParams: 浏览器中的查询字符串处理利器
  • 2024最新初级会计职称题库来啦!!!
  • Stirling PDF 部署 - 强大的PDF Web在线编辑工具箱
  • 大数据面试题之MapReduce(3)
  • [leetcode]squares-of-a-sorted-array. 有序数组的平方
  • 使用Spring Boot和Spring Data JPA进行数据库操作
  • 《昇思25天学习打卡营第17天 | 昇思MindSporeCycleGAN图像风格迁移互换》
  • SecureCRT使用SSH登录服务器报错:Key exchange failed
  • Oracle给用户单个表查询权限
  • [Go 微服务] Kratos 验证码业务
  • 等保2.0安全计算环境解读
  • Qt视频播放器(二)
  • 普元EOS学习笔记-创建精简应用
  • 观察者模式在金融业务中的应用及其框架实现
  • 最新docker仓库镜像
  • springboot 3.x相比之前版本有什么区别
  • Python逻辑控制语句 之 判断语句--if语句的基本结构
  • LeetCode 算法:翻转二叉树 c++