当前位置: 首页 > news >正文

决策树简单实战

一、数据集长这样

有 5 条样本,2 个特征(不浮出水面是否可以生存、是否有脚蹼 ),标签是 属于鱼类,数据如下:

样本不浮出水面是否可以生存是否有脚蹼属于鱼类
1
2
3
4
5

二、核心思路:用 “熵” 找最佳分类特征

决策树靠熵(混乱度)选特征,熵越大数据越乱。我们要找 “分完类后,标签混乱度降最多” 的特征,这一步叫信息增益。

先算 “标签(属于鱼类)” 的熵

标签里  出现 2 次, 出现 3 次,总样本 5 条。
熵公式:H=−∑(pi​×log2​pi​),其中 pi​ 是类别占比。
计算得:属于鱼类(具体计算看之前的步骤,记住这是初始混乱度!)

算特征的 “条件熵”(分完类后的混乱度)

特征 1:不浮出水面是否可以生存

特征值 = :包含样本 1、2、3(共 3 条),标签里  占 2/3, 占 1/3,条件熵 H1​≈0.918。

特征值 = :包含样本 4、5(共 2 条),标签全是 ,条件熵 H2​=0(纯混乱度为 0 )。

条件熵整体:属于鱼类不浮出水面

特征 2:是否有脚蹼

特征值 = :包含样本 1、2、4、5(共 4 条),标签里  占 2/4, 占 2/4,条件熵 H1​=1。

特征值 = :包含样本 3(共 1 条),标签是 ,条件熵 H2​=0。

条件熵整体:属于鱼类是否有脚蹼

特征 “不浮出水面”:0.971−0.551=0.42

特征 “是否有脚蹼”:0.971−0.8=0.171

“不浮出水面是否可以生存” 信息增益更大。

三、总结

决策树靠 “熵” 选特征,一步步把混乱数据分类。核心逻辑就是“找大当家和各个小当家”

把复杂问题拆成简单判断!

下期再见!

http://www.lryc.cn/news/624834.html

相关文章:

  • 容器化 Android 开发效率:cpolar 内网穿透服务优化远程协作流程
  • 【Langchain系列三】GraphGPT——LangChain+NebulaGraph+llm构建智能图数据库问答系统
  • Swift + Xcode 开发环境搭建终极指南
  • 一个月内快速掌握蓝牙原理与应用的全面学习规划
  • 104、【OS】【Nuttx】【周边】文档构建渲染:安装 Sphinx 扩展(上)
  • Day7--滑动窗口与双指针--1695. 删除子数组的最大得分,2958. 最多 K 个重复元素的最长子数组,2024. 考试的最大困扰度
  • 负载均衡终极指南:从流量分发到云原生架构的核心解析
  • Apache IoTDB集群部署实战:1C2D架构的高性能时序数据库搭建与优化指南
  • 第4章-04-用WebDriver页面元素操作
  • onRequestHide at ORIGIN_CLIENT reason HIDE_SOFT_INPUT fromUser false
  • 告别 DOM 的旧时代:从零重塑 Web 渲染的未来
  • scikit-learn/sklearn学习|弹性网络ElasticNet解读
  • LINUX 818 shell:random;for for
  • 咨询进阶——解读咨询顾问技能模型
  • 2025 年世界职业院校技能大赛汽车制造与维修赛道高职组资讯整合
  • Unity开发中的浅拷贝与深拷贝
  • 做一个答题pk小程序多少钱?
  • Golang資源分享
  • USB基础 -- 字符串描述符 (String Descriptor) 系统整理文档
  • C++中内存池(Memory Pool)详解和完整示例
  • Mongodb(文档数据库)的安装与使用(文档的增删改查)
  • 可实时交互的AI生成世界,腾讯发布的AI框架Yan
  • 对象存储 COS 端到端质量系列 —— 终端网络诊断工具
  • EMC PCB 设计规范
  • 上汽通用牵手Momenta,别克至境L7全球首发搭载R6飞轮大模型
  • 用随机森林填补缺失值:原理、实现与实战
  • 深度学习必然用到的概率知识
  • 94、23种设计模式之工厂方法模式
  • Redis--day8--黑马点评--分布式锁(一)
  • 单片机驱动LCD显示模块LM6029BCW