决策树简单实战
一、数据集长这样
有 5 条样本,2 个特征(不浮出水面是否可以生存、是否有脚蹼 ),标签是 属于鱼类,数据如下:
样本 | 不浮出水面是否可以生存 | 是否有脚蹼 | 属于鱼类 |
---|---|---|---|
1 | 是 | 是 | 是 |
2 | 是 | 是 | 是 |
3 | 是 | 否 | 否 |
4 | 否 | 是 | 否 |
5 | 否 | 是 | 否 |
二、核心思路:用 “熵” 找最佳分类特征
决策树靠熵(混乱度)选特征,熵越大数据越乱。我们要找 “分完类后,标签混乱度降最多” 的特征,这一步叫信息增益。
先算 “标签(属于鱼类)” 的熵
标签里 是
出现 2 次,否
出现 3 次,总样本 5 条。
熵公式:H=−∑(pi×log2pi),其中 pi 是类别占比。
计算得:属于鱼类(具体计算看之前的步骤,记住这是初始混乱度!)
算特征的 “条件熵”(分完类后的混乱度)
特征 1:不浮出水面是否可以生存
特征值 = 是
:包含样本 1、2、3(共 3 条),标签里 是
占 2/3,否
占 1/3,条件熵 H1≈0.918。
特征值 = 否
:包含样本 4、5(共 2 条),标签全是 否
,条件熵 H2=0(纯混乱度为 0 )。
条件熵整体:属于鱼类不浮出水面
特征 2:是否有脚蹼
特征值 = 是
:包含样本 1、2、4、5(共 4 条),标签里 是
占 2/4,否
占 2/4,条件熵 H1=1。
特征值 = 否
:包含样本 3(共 1 条),标签是 否
,条件熵 H2=0。
条件熵整体:属于鱼类是否有脚蹼
特征 “不浮出水面”:0.971−0.551=0.42
特征 “是否有脚蹼”:0.971−0.8=0.171
“不浮出水面是否可以生存” 信息增益更大。
三、总结
决策树靠 “熵” 选特征,一步步把混乱数据分类。核心逻辑就是“找大当家和各个小当家”
把复杂问题拆成简单判断!
下期再见!