当前位置: 首页 > news >正文

【机器学习】决策树

参考课程视频:https://www.icourse163.org/course/NEU-1462101162?tid=1471214452

1 概述

样子:
在这里插入图片描述

2 分裂

2.1 分裂原则

信息增益
在这里插入图片描述
在这里插入图片描述

信息增益比
在这里插入图片描述

基尼指数
在这里插入图片描述

3 终止 & 剪枝

3.1 终止条件

  • 无需分裂
    • 当前节点内样本同属一类
  • 无法分裂
    • 当前节点内所有样本的特征向量完全相同
    • 采用任何特征都无法将当前样本集分为多个子类
  • 无数据可分
    • 当前节点内没有样本

3.2 剪枝

剪枝的目的:解决决策树过拟合现象(决策树规模大),提高决策树的泛化性能。

剪枝方法

  • 前剪枝(预剪枝)
    • 在决策树的生成过程中同步进行剪枝
    • 在节点进行分裂前,对比节点分裂前后决策树的泛化性能指标,若泛化性能在分裂后得到提升,执行分裂;否则不执行分裂。
  • 后剪枝
    • 在决策树完全生成后逐步剪去叶子节点
    • 常采用启发式方法从最深层的叶子节点或具有最高不纯度的
      叶子节点开始剪枝
    • 通过对比剪枝前后的泛化指标,决定是否剪去该叶子节点。

前剪枝 & 后剪枝 策略对比:

策略时间拟合风险泛化能力
前剪枝训练时间较少、测试时间较少过拟合风险较低 、欠拟合风险较高泛化能力一般
后剪枝训练时间较长、测试时间较少过拟合风险较低、欠拟合风险稳定泛化能力较好

通常后剪枝比前剪枝保留的决策树规模更大。

4 决策树算法

4.1 经典决策树算法

ID3
在这里插入图片描述

C4.5
在这里插入图片描述

CART(Classification And Regression Tree)
在这里插入图片描述

4.2 算法对比分析

算法特征选择剪枝处理数据类型树类型
ID3信息增益离散多叉树
C4.5信息增益比前剪枝离散、连续多叉树
CART基尼指数后剪枝离散、连续二叉树
总结:
  • CART的功能更全:分类、回归
  • CART具有更好的泛化性能:二叉树,后剪枝。
  • CART训练时间较长,计算开销较大。
  • 信息增益、信息增益比和基尼指数各有利弊。
http://www.lryc.cn/news/265935.html

相关文章:

  • [node] Node.js的全局对象Global
  • 完整的 Meteor NPM 集成
  • 智能优化算法应用:基于骑手优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码
  • 解决 MATLAB 遗传算法中 exitflg=4 的问题
  • 云卷云舒:云原生业务应用成熟度模型
  • STM32的以太网外设+PHY(LAN8720)使用详解(5):MAC及DMA配置
  • GitHub、Gitee、Gitlab共用一个SSH密钥配置
  • ClickHouse(19)ClickHouse集成Hive表引擎详细解析
  • 用C求斐波那契数列-----(C每日一编程)
  • 在Jetpack Compose中使用ExoPlayer实现直播流和音频均衡器
  • 持续集成交付CICD:Jira 远程触发 Jenkins 实现更新 GitLab 分支
  • 基于SSM的面向TCP_IP的网络互联实验平台
  • 【IDEA】try-catch自动生成中修改catch的内容
  • 2024 十大AI预测
  • 【Linux基础开发工具】gcc/g++使用make/Makefile
  • Windows Nginx版本升级
  • kubernetes集群 应用实践 kafka部署
  • Featured Based知识蒸馏及代码(3): Focal and Global Knowledge (FGD)
  • CentOs 安装MySQL
  • 基于Java (spring-boot)的在线考试管理系统
  • 5. 结构型模式 - 外观模式
  • 微服务之配置中心与服务跟踪
  • 链表 典型习题
  • 面试题:JVM 对锁都进行了哪些优化?
  • SSM整合实战(Spring、SpringMVC、MyBatis)
  • QT调用外部exe及无终端弹窗的解决方案、并实现进程输出信息获取
  • 大语言模型的三种主要架构 Decoder-Only、Encoder-Only、Encoder-Decoder
  • 【MySQL】外连接 where 和 on 的区别
  • 【优化】XXLJOB修改为使用虚拟线程
  • 金蝶Apusic应用服务器 loadTree JNDI注入漏洞复现(QVD-2023-48297)