当前位置: 首页 > news >正文

机器学习系列13:通过随机森林获取特征重要性

我们已经知道通过 L1 正则化和 SBS 算法可以用来做特征选择。

我们还可以通过随机森林从数据集中选择相关的特征。随机森林里面包含了多棵决策树,我们可以通过计算特征在每棵决策树决策过程中所产生的的信息增益平均值来衡量该特征的重要性。

你可能需要参考:《机器学习系列06:决策树》

这种方法无需对特征做归一化或者标准化预处理,也不假设数据集是否线性可分。

以红酒数据集为例。我们可以直接通过 feature_importances_ 属性获取每个特征的重要性,所有特征重要性之和为 1.0。

图片

我们可以更直观地可视化观察一下。

图片

可以看到上面随机森林选出的前 3 个特征最重要的特征中有 2 也出现在了之前在
《机器学习系列12:减少过拟合——降维(特征选择)》中使用 SFS 算法选择的 3 个最重要的特征中。

图片

我们可以通过 scikit-learn 提供的 SelectFromModel 来通过 threshold 参数设定一个阈值 ,选择满足这个贡献度阈值的特征出来。

图片

可以看到选择了 5 个特征,现在我们就用这 5 个特征拟合一下 kNN 算法。

图片

可以对比一下在用 SFS 算法选择的 3 个特征拟合的 kNN 算法。

图片

选择 5 个特征时,模型在训练集和测试集上的表现和选择全部特征的表现相当!

http://www.lryc.cn/news/270260.html

相关文章:

  • flink中值得监控的几个指标
  • 最优化方法Python计算:无约束优化应用——逻辑分类模型
  • springboot定时执行某个任务
  • Java EE Servlet之Servlet API详解
  • neo4j运维管理
  • 【MYSQL】-函数
  • 传统船检已经过时?AR智慧船检来助力!!
  • JAVA进化史: JDK11特性及说明
  • 模型 安索夫矩阵
  • 性能手机新标杆,一加 Ace 3 发布会定档 1 月 4 日
  • Vue 框架前导:详解 Ajax
  • 3分钟快速安装 ClickHouse、配置服务、设置密码和远程登录以及修改数据目录
  • PHP8使用PDO对象增删改查MySql数据库
  • 证明:切线垂直于半径
  • 普中STM32-PZ6806L开发板(STM32CubeMX创建项目并点亮LED灯)
  • 【Windows】共享文件夹拍照还原防火墙设置(入站,出站设置)---图文并茂详细讲解
  • 1.决策树
  • 基于微信小程序的停车预约系统设计与实现
  • 再见2023,你好2024
  • 年度总结|存储随笔2023年度最受欢迎文章榜单TOP15-part1
  • 微信小程序 手机号授权登录 偶尔后端解密失败
  • Mysql 容易忘的 sql 指令总结
  • 【SD】tile 模型 - 固定衣服 生成人物 ☑
  • StackOverflowError的JVM处理方式
  • 基于DFA算法实现敏感词过滤
  • 模式识别与机器学习-无监督学习-聚类
  • Python中property特性属性是什么
  • vue3 全局配置Axios实例
  • EI级 | Matlab实现TCN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测
  • WeNet语音识别分词制作词云图