当前位置: 首页 > news >正文

决策树--ID3算法

决策树–ID3算法

概念

(1)信息熵

E n t r o p y ( x ) = − ∑ i N c l a s s P ( x i ) l o g 2 P ( x i ) Entropy(x) = -\sum_{i}^{N_{class}}P(x_i)log_2 P(x_i) Entropy(x)=iNclassP(xi)log2P(xi)

假设只有2个类别(N=2),$ P(x_i) 在【 0 , 1 】之间, 在【0,1】之间, 在【01】之间,log_2 P(x_i) $ 小于0,因此Entropy(x) 大于0;
当两类别概率分别0.5,0.5的时候(样本均匀)信息熵最大,此时纯度最低;当分别为1,0的时候信息熵最小,此时纯度最高;
因此,信息熵表示不确定性(混乱程度),纯度最低的时候混乱性最大。

息增益指的就是划分可以带来纯度的提高,信息熵的下降。

(2)信息增益

决策树划分需要往数据纯度提高的方向进行才能正确识别样本,即信息熵变小的方向,假设划分前的信息熵为 S S S,根据特征 T T T划分后的信息熵为 S T S_{T} ST,则 S T S_{T} ST的值应该最小,即 S − S T S-S_{T} SST的值(信息增益)应该最大;
即信息增益最大的时候划分的数据越纯;
信息增益的计算公式为:
G a i n ( S , T ) = E n t r o p y ( S ) − ∑ v ∈ T ∣ S v ∣ ∣ S ∣ E n t r o p y ( ∣ S v ∣ ) Gain(S, T) = Entropy(S) -\sum_{v\in T }^{} \frac{|S_v|}{|S|} Entropy(|S_v|) Gain(S,T)=Entropy(S)vTSSvEntropy(Sv)
其中, v v v为特征 T T T的取值,当 v v v为特征 T 1 T_1 T1时,一共有样本数目为 ∣ S v ∣ |S_v| Sv,该集合的信息熵为 E n t r o p y ( ∣ S v ∣ ) Entropy(|S_v|) Entropy(Sv)

http://www.lryc.cn/news/205785.html

相关文章:

  • js延时加载有哪些方式
  • VSCode运行python提示No module name ‘xxx‘
  • 【网安大模型专题10.19】※论文5:ChatGPT+漏洞定位+补丁生成+补丁验证+APR方法+ChatRepair+不同修复场景+修复效果(韦恩图展示)
  • C盘满了怎么清理文件?
  • pytest方法间变量值传递--request夹具
  • Linux 内核定时器(高级字符设备五)
  • 「快学Docker」Docker镜像和容器的创建与管理
  • Zabbix出现 404Not FoundThe requested URL /zabbix was not found on this server.
  • 【STM32】标准库的引入
  • Redis的淘汰策略
  • Linux友人帐之日志与备份
  • git中如何在父仓库提交子仓库的修改
  • 【【萌新的SOC学习之SD卡DMA回路读写大数据的实验】】
  • 在k8s中 ,数据包是怎么从外部流转进入到pod的?
  • 微信小程序设置 wx.showModal 提示框中 确定和取消按钮的颜色
  • 【Chrome】使用k8s、docker部署无头浏览器Headless,Java调用示例
  • springmvc http请求,支持get,post,附件传输和参数传输
  • linux性能分析(七)CPU性能篇(二)怎么理解平均负载
  • PostgreSQL12中浮点数输出算法优化带来的小问题
  • Hive安装配置笔记
  • 前端数据可视化之【Echarts下载使用】
  • 本机计算机上的mysql启动后停止
  • Java中ReentrantLock测试线程的安全
  • Vue-dvadmin-d2-crud-plus-常用配置-row-handle-columns-options
  • 【OpenCV实现图像的算数运算,性能测试和优化,改变颜色空间】
  • 多级缓存入门
  • CentOS卸载LVM磁盘的方法
  • ChatGPT:Spring Boot和Maven——Java应用开发的关键工具和区别
  • 智能振弦传感器:参数智能识别技术的重要科技创新
  • tooltip实现悬停内容染色