机器学习sklearn:不纯度与决策树构建
不纯度与决策树构建
不纯度概念:
决策树通过不纯度指标来选择最佳分割节点和分枝方式
不纯度衡量节点中样本类别的混杂程度
不纯度越低,节点中样本类别越纯净,拟合效果越好
常用不纯度指标:
信息熵(Entropy):基于信息论的概念,衡量不确定性(这个比基尼系数让树的生长更加细腻,拟合程度高)
基尼系数(Gini Index):计算随机抽样时分类错误的概率(默认是这个)
节点分裂原则:
选择使子节点不纯度降低最多的特征进行分裂
子节点的不纯度总是低于父节点
叶子节点的不纯度是最低的
剪枝与防止过拟合
过拟合风险:
完全生长的决策树会对训练数据拟合得非常好(不纯度很低)
但可能导致树结构过于复杂,泛化能力差
剪枝方法:
预剪枝:在树完全生长前限制
限制最大深度(max_depth)
设置最小样本分裂数(min_samples_split)
设置叶子节点最小样本数(min_samples_leaf)
后剪枝:先让树完全生长,然后剪去不重要的分支
剪枝效果:
减少树的复杂度
提高模型泛化能力
防止对训练数据的过度拟合