XGBoost三部曲:XGBoost参数详解
之前已经介绍了XGBoost三部曲:XGBoost原理。本文详细介绍XGBoost参数,让大家在使用XGBoost的过程中能得心应手。后续会更新XGBoost实战,敬请期待。
文章目录
-
- 一、核心概念回顾
- 二、XGBoost算法参数整体介绍
-
- 1 原生接口和Scikit-learn接口的区别
- 2 参数分类详解
- 三、核心Booster参数详解与最优使用建议
- 四、参数调优策略总结
-
- 1 固定基础,早停优先
- 2 调整树结构复杂度
- 3 应用正则化
- 4 处理特定问题
- 5 系统化调优
- 五、注意事项
一、核心概念回顾
集成学习:通过构建并结合多个机器学习模型来改善模型的性能。通过训练多个模型,并将它们的预测结果进行某种方式的结合,通常可以得到比单一模型更好的预测结果。
Bagging:是Bootstrap Aggregating的缩写,是一种通过结合多个模型的预测结果来减少模型方差的方法。在Bagging中,每个模型都是在原始数据集的随机子集上进行训练的,这些随机子集是通过有放回的抽样得到的。然后,所有模型的预测结果通过投票(对于分类问题)或平均(对于回归问题)的方式进行结合,典型的代表是随机森林。
Boosting:基本思想是三个臭皮匠赛过诸葛亮。算法思路是采用串行的方式训练基分类器,每一层在训练时,给前一层基分类器分错的样本更高的权重,最后把各层分类器的结果层层加权叠加得到最终的结果。
GBDT:是Gradient Boosting Decision Tree的缩写,是一种基于决策树的集成学习算法,也是一种迭代式的boosting算法。基本原理是迭代地训练决策树,每次训练都基于之前训练结果来进行优化。训练过程基于梯度下降的思想,使用了加法模型和函数优化方法。
XGBoost :是eXtreme Gradient Bo