当前位置: 首页 > news >正文

机器学习-随机森林解析

目录

一、.随机森林的思想

二、随机森林构建步骤

1.自助采样

2.特征随机选择

3构建决策树

4.集成预测

三. 随机森林的关键优势

​**(1) 减少过拟合**

​**(2) 高效并行化**

​**(3) 特征重要性评估**

​**(4) 耐抗噪声**

四. 随机森林的优缺点

​优点

​缺点

五. 参数调优(以scikit-learn为例)​

波士顿房价预测


一、.随机森林的思想

1.通过组成多个弱学习器(决策树)形成一个学习器

2.多样性增强:每颗决策树通过特征随机选择和样本随机抽样生成,降低模型之间的相关性,减少过拟合风险

二、随机森林构建步骤

1.自助采样

从原始数据集中有放回的随机抽样(每个子集大小等于原始数据集)。

大约30%的数据未被抽中,形成“袋外样本”(Out-of-Bag, OOB),用于模型评估。

2.特征随机选择

每棵决策树在构建时,仅从所有特征中随机选择一个子集(例如,对于分类任务,通常选择 m=sqrt(n_feature) 个特征)

增加特征间的独立性,避免模型偏向特定特征

3构建决策树

对每个子集和特征组合,递归地生成决策树(使用与单棵决策树相同的算法,如CART)。
不进行剪枝(Pre-pruning),允许树完全生长。

4.集成预测

分类任务:所有树的预测结果按多数票决定最终类别

回归任务:所有树的预测结果取平均值

三. 随机森林的关键优势

​**(1) 减少过拟合**
  • 单棵决策树易过拟合,但多棵树的“平均效应”降低了方差。
  • 无需复杂的剪枝操作。
​**(2) 高效并行化**
  • 树之间相互独立,可通过并行计算加速训练。
​**(3) 特征重要性评估**
  • 通过统计每棵树中特征被选中的频率,量化其对最终预测的贡献度。
​**(4) 耐抗噪声**
  • 对缺失值和异常值不敏感(需适当处理缺失值)。

四. 随机森林的优缺点

优点
  • 高准确率:在大多数任务中表现优于单个决策树。
  • 可解释性:可通过特征重要性分析和可视化部分树结构。
  • 适应性强:支持分类、回归、特征选择等多种任务。
缺点
  • 计算资源消耗大:生成大量树需要更多内存和计算时间。
  • 对高维稀疏数据效果不佳:特征随机选择可能无法覆盖关键特征。
  • 黑箱化风险:相比单棵决策树,集成模型的解释性略低。

五. 参数调优(以scikit-learn为例)​

参数作用默认值
n_estimators树的数量100
max_depth树的最大深度None(不限制)
min_samples_split内部节点最少分割样本数2
max_features每棵树使用的特征数量auto(分类任务为√n)
bootstrap是否使用自助采样True

波士顿房价预测

from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_boston# 加载数据
boston = load_boston()
X, y = boston.data, boston.target# 创建随机森林回归模型
model = RandomForestRegressor(n_estimators=100, random_state=42)# 训练模型
model.fit(X, y)# 预测均值绝对误差(MAE)
y_pred = model.predict(X)
print(f"Mean Absolute Error: {np.mean(np.abs(y - y_pred)):.2f}")
http://www.lryc.cn/news/547864.html

相关文章:

  • Javaweb后端spring事务管理 事务四大特性ACID
  • 在Spring Boot + MyBatis中优雅处理多表数据清洗:基于XML的配置化方案
  • 【无标题】四色拓扑模型与宇宙历史重构的猜想框架
  • [特殊字符] Django 常用命令
  • mysql中如何保证没有幻读发生
  • Golang实践录:go发布版本信息收集
  • 字节跳动AI原生编程工具Trae和百度“三大开发神器”AgentBuilder、AppBuilder、ModelBuilder的区别是?
  • 【UCB CS 61B SP24】Lecture 21: Data Structures 5: Priority Queues and Heaps 学习笔记
  • mapbox高阶,结合threejs(threebox)添加三维球体
  • QEMU源码全解析 —— 块设备虚拟化(1)
  • IDEA中Git版本回退终极指南:Reset与Revert双方案详解
  • Flutter 学习之旅 之 flutter 使用 flutter_screenutil 简单进行屏幕适配
  • 实验一:在Windows 10/11下配置和管理TCP/IP
  • 基于hive的电信离线用户的行为分析系统
  • Rust WebAssembly 入门教程
  • 部署RabbitMQ集群详细教程
  • 20250306JIRA添加企业微信邮箱通知
  • 代码随想录算法训练营第五十七天 | 101. 孤岛的总面积 102. 沉没孤岛 103. 水流问题 104.建造最大岛屿
  • llamafactory大模型微调教程(周易大模型案例)
  • excel 斜向拆分单元格
  • 【JAVA架构师成长之路】【JVM实战】第2集:生产环境内存飙高排查实战
  • MATLAB实现遗传算法优化风电_光伏_光热_储热优化
  • JCRQ1河马算法+四模型对比!HO-CNN-GRU-Attention系列四模型多变量时序预测
  • react中的fiber和初次渲染
  • LLM 大模型基础认知篇
  • leetcode700-二叉搜索树中的搜索
  • 《MySQL三大核心日志解析:Undo Log/Redo Log/Bin Log对比与实践指南》
  • java中实体类常见的设计模式
  • 【够用就好006】如何从零开发游戏上架steam面向AI编程的godot独立游戏制作实录001流程
  • 发行思考:全球热销榜的频繁变动