当前位置：首页 > news >正文

决策树简单实战

news 2025/8/19 10:55:56

一、数据集长这样

有 5 条样本，2 个特征（不浮出水面是否可以生存、是否有脚蹼），标签是属于鱼类，数据如下：

样本	不浮出水面是否可以生存	是否有脚蹼	属于鱼类
1	是	是	是
2	是	是	是
3	是	否	否
4	否	是	否
5	否	是	否

二、核心思路：用 “熵” 找最佳分类特征

决策树靠熵（混乱度）选特征，熵越大数据越乱。我们要找 “分完类后，标签混乱度降最多” 的特征，这一步叫信息增益。

先算 “标签（属于鱼类）” 的熵

标签里 是 出现 2 次，否 出现 3 次，总样本 5 条。
熵公式：H=−∑(pi×log2pi)，其中 pi 是类别占比。
计算得：属于鱼类（具体计算看之前的步骤，记住这是初始混乱度！）

算特征的 “条件熵”（分完类后的混乱度）

特征 1：不浮出水面是否可以生存

特征值 = 是：包含样本 1、2、3（共 3 条），标签里 是 占 2/3，否 占 1/3，条件熵 H1≈0.918。

特征值 = 否：包含样本 4、5（共 2 条），标签全是 否，条件熵 H2=0（纯混乱度为 0 ）。

条件熵整体：属于鱼类不浮出水面

特征 2：是否有脚蹼

特征值 = 是：包含样本 1、2、4、5（共 4 条），标签里 是 占 2/4，否 占 2/4，条件熵 H1=1。

特征值 = 否：包含样本 3（共 1 条），标签是 否，条件熵 H2=0。

条件熵整体：属于鱼类是否有脚蹼

特征 “不浮出水面”：0.971−0.551=0.42

特征 “是否有脚蹼”：0.971−0.8=0.171

“不浮出水面是否可以生存” 信息增益更大。

三、总结

决策树靠 “熵” 选特征，一步步把混乱数据分类。核心逻辑就是“找大当家和各个小当家”

把复杂问题拆成简单判断！

下期再见!

查看全文

http://www.lryc.cn/news/624834.html

容器化 Android 开发效率：cpolar 内网穿透服务优化远程协作流程

【Langchain系列三】GraphGPT——LangChain+NebulaGraph+llm构建智能图数据库问答系统

Swift + Xcode 开发环境搭建终极指南

一个月内快速掌握蓝牙原理与应用的全面学习规划

104、【OS】【Nuttx】【周边】文档构建渲染：安装 Sphinx 扩展（上）

Day7--滑动窗口与双指针--1695. 删除子数组的最大得分，2958. 最多 K 个重复元素的最长子数组，2024. 考试的最大困扰度

负载均衡终极指南：从流量分发到云原生架构的核心解析

Apache IoTDB集群部署实战：1C2D架构的高性能时序数据库搭建与优化指南

第4章-04-用WebDriver页面元素操作

onRequestHide at ORIGIN_CLIENT reason HIDE_SOFT_INPUT fromUser false

告别 DOM 的旧时代：从零重塑 Web 渲染的未来

scikit-learn/sklearn学习|弹性网络ElasticNet解读

LINUX 818 shell:random；for for

咨询进阶——解读咨询顾问技能模型

2025 年世界职业院校技能大赛汽车制造与维修赛道高职组资讯整合

Unity开发中的浅拷贝与深拷贝

做一个答题pk小程序多少钱？

Golang資源分享

USB基础 -- 字符串描述符 (String Descriptor) 系统整理文档

C++中内存池（Memory Pool）详解和完整示例

Mongodb（文档数据库）的安装与使用（文档的增删改查）

可实时交互的AI生成世界，腾讯发布的AI框架Yan

对象存储 COS 端到端质量系列 —— 终端网络诊断工具

EMC PCB 设计规范

上汽通用牵手Momenta，别克至境L7全球首发搭载R6飞轮大模型

用随机森林填补缺失值：原理、实现与实战

深度学习必然用到的概率知识

94、23种设计模式之工厂方法模式

Redis--day8--黑马点评--分布式锁（一）

单片机驱动LCD显示模块LM6029BCW

一、数据集长这样

二、核心思路：用 “熵” 找最佳分类特征

三、总结

相关文章：