当前位置: 首页 > news >正文

机器学习sklearn:不纯度与决策树构建

不纯度与决策树构建

  1. 不纯度概念

    • 决策树通过不纯度指标来选择最佳分割节点和分枝方式

    • 不纯度衡量节点中样本类别的混杂程度

    • 不纯度越低,节点中样本类别越纯净,拟合效果越好

  2. 常用不纯度指标

    • 信息熵(Entropy):基于信息论的概念,衡量不确定性(这个比基尼系数让树的生长更加细腻,拟合程度高)

    • 基尼系数(Gini Index):计算随机抽样时分类错误的概率(默认是这个)

  3. 节点分裂原则

    • 选择使子节点不纯度降低最多的特征进行分裂

    • 子节点的不纯度总是低于父节点

    • 叶子节点的不纯度是最低的

剪枝与防止过拟合

  1. 过拟合风险

    • 完全生长的决策树会对训练数据拟合得非常好(不纯度很低)

    • 但可能导致树结构过于复杂,泛化能力差

  2. 剪枝方法

    • 预剪枝:在树完全生长前限制

      • 限制最大深度(max_depth)

      • 设置最小样本分裂数(min_samples_split)

      • 设置叶子节点最小样本数(min_samples_leaf)

    • 后剪枝:先让树完全生长,然后剪去不重要的分支

  3. 剪枝效果

    • 减少树的复杂度

    • 提高模型泛化能力

    • 防止对训练数据的过度拟合

http://www.lryc.cn/news/602318.html

相关文章:

  • Rust实战:AI与机器学习自动炒饭机器学习
  • Linux系统Centos7 安装mysql5.7教程 和mysql的简单指令
  • 搭建HAProxy高可用负载均衡系统
  • 【拓扑排序 缩点】P2272 [ZJOI2007] 最大半连通子图|省选-
  • Linux应用开发基础知识——LInux学习FreeType编程(七)
  • 【C++进阶】---- 二叉搜索树
  • 基于LangGraph Cli的智能数据分析助手
  • Android中PID与UID的区别和联系(2)
  • Go 语言面试题
  • 数据分析干货| 衡石科技可视化创作之仪表盘控件如何设置
  • GitLab 公共仓库:coding 用到的 git 命令
  • Springboot社区养老保险系统小程序
  • 一文理清 Linux 软件管理核心知识:从程序组成到包管理工具
  • Java面试宝典:MySQL8新特性
  • shell学习从入门到精通(第二部分)
  • 机器学习sklearn:决策树的参数、属性、接口
  • nccl中__syncthreads的作用及例子 (来自deepseek)
  • 135端口与WMI攻防全解析
  • 网络安全基础知识【4】
  • python中类变量 __slots__ 解析
  • 5190 - 提高:DFS序和欧拉序:树上操作(区域修改1)
  • 排序算法 (Sorting Algorithms)-JS示例
  • AI原生应用:从人机关系重构到数字空间革命
  • RF随机森林分类预测+特征贡献SHAP分析,通过特征贡献分析增强模型透明度,Matlab代码实现,引入SHAP方法打破黑箱限制,提供全局及局部双重解释视角
  • 力扣7:整数反转
  • OCR 赋能合同抽取:不良资产管理公司的效率加速器
  • Kafka 顺序消费实现与优化策略
  • 数据结构之顺序表链表栈
  • 【Git】Linux-ubuntu 22.04 初步认识 -> 安装 -> 基础操作
  • 图片PDF识别工具:扫描PDF文件批量OCR区域图识别改名,识别大量PDF区域内容一次性改名