当前位置：首页 > news >正文

决策树--ID3算法

news 2025/9/14 16:35:01

决策树–ID3算法

概念

（1）信息熵

$-\sum_{i}^{N_{class}}P(x_i)log_2 P(x_i)$

假设只有2个类别（N=2），$ P(x_i) $在【 0 ， 1 】之间，$ log_2 P(x_i) $ 小于0，因此Entropy(x) 大于0；
当两类别概率分别0.5，0.5的时候（样本均匀）信息熵最大，此时纯度最低；当分别为1，0的时候信息熵最小，此时纯度最高；
因此，信息熵表示不确定性（混乱程度），纯度最低的时候混乱性最大。

息增益指的就是划分可以带来纯度的提高，信息熵的下降。

（2）信息增益

决策树划分需要往数据纯度提高的方向进行才能正确识别样本，即信息熵变小的方向，假设划分前的信息熵为 $S$ ，根据特征 $T$ 划分后的信息熵为 $S_{T}$ ，则 $S_{T}$ 的值应该最小，即 $S-S_{T}$ 的值（信息增益）应该最大；
即信息增益最大的时候划分的数据越纯；
信息增益的计算公式为：
$-\sum_{v\in T }^{} \frac{|S_v|}{|S|} Entropy(|S_v|)$
其中， $v$ 为特征 $T$ 的取值，当 $v$ 为特征 $T_1$ 时，一共有样本数目为 $S_v|$ ，该集合的信息熵为 $Entropy(|S_v|)$

http://www.lryc.cn/news/205785.html

相关文章：

js延时加载有哪些方式

VSCode运行python提示No module name ‘xxx‘

【网安大模型专题10.19】※论文5：ChatGPT+漏洞定位+补丁生成+补丁验证+APR方法+ChatRepair+不同修复场景+修复效果（韦恩图展示）

C盘满了怎么清理文件？

pytest方法间变量值传递--request夹具

Linux 内核定时器（高级字符设备五）

「快学Docker」Docker镜像和容器的创建与管理

Zabbix出现 404Not FoundThe requested URL /zabbix was not found on this server.

【STM32】标准库的引入

Redis的淘汰策略

Linux友人帐之日志与备份

git中如何在父仓库提交子仓库的修改

【【萌新的SOC学习之SD卡DMA回路读写大数据的实验】】

在k8s中，数据包是怎么从外部流转进入到pod的？

微信小程序设置 wx.showModal 提示框中确定和取消按钮的颜色

【Chrome】使用k8s、docker部署无头浏览器Headless，Java调用示例

springmvc http请求，支持get，post,附件传输和参数传输

linux性能分析(七)CPU性能篇(二)怎么理解平均负载

PostgreSQL12中浮点数输出算法优化带来的小问题

Hive安装配置笔记

前端数据可视化之【Echarts下载使用】

本机计算机上的mysql启动后停止

Java中ReentrantLock测试线程的安全

Vue-dvadmin-d2-crud-plus-常用配置-row-handle-columns-options

【OpenCV实现图像的算数运算,性能测试和优化,改变颜色空间】

多级缓存入门

CentOS卸载LVM磁盘的方法

ChatGPT：Spring Boot和Maven——Java应用开发的关键工具和区别

智能振弦传感器：参数智能识别技术的重要科技创新

tooltip实现悬停内容染色