当前位置: 首页 > news >正文

机器学习——GBDT算法

机器学习——GBDT算法

在机器学习领域,梯度提升决策树(Gradient Boosting Decision Trees,简称GBDT)是一种十分强大且常用的集成学习算法。它通过迭代地训练决策树来不断提升模型性能,是一种基于弱学习器的提升算法。本文将详细介绍梯度提升树算法的原理,并与随机森林进行对比,最后给出Python实现的示例代码和总结。

1. 提升树模型

提升树模型是一种基于决策树的集成学习方法,它通过组合多棵决策树来构建一个更强大的模型。提升树模型的基本思想是,将一系列弱学习器(通常是决策树)线性叠加,每一棵树都在尝试修正前一棵树的残差,从而逐步提升整体模型的性能。

2. 梯度提升树

梯度提升树是提升树的一种形式,它通过梯度下降的方法来最小化损失函数。具体来说,梯度提升树使用梯度下降算法来最小化损失函数的负梯度,以此来更新当前模型,使得模型在每一轮迭代中更接近于真实标签。

3. 算法流程

梯度提升树的算法流程如下:

  1. 初始化模型为一个常数值,通常是训练集标签的均值。
  2. 对于每一轮迭代:
    • 计算当前模型的负梯度,作为残差的近似值。
    • 使用负梯度拟合一个回归树模型。
    • 将新拟合的树模型与当前模型进行线性组合,更新模型。
  3. 重复上述步骤直到满足停止条件(如达到最大迭代次数)。

4. 理论公式

梯度提升树的更新公式如下所示:

对于第 i i i轮迭代,模型 F i ( x ) F_i(x) Fi(x),损失函数 L ( y , F i ( x ) ) L(y, F_i(x)) L(y,Fi(x)),学习率 η \eta η,则模型 F i + 1 ( x ) F_{i+1}(x) Fi+1(x)的更新公式为:

F i + 1 ( x ) = F i ( x ) + η h i ( x ) F_{i+1}(x) = F_i(x) + \eta h_i(x) Fi+1(x)=Fi(x)+ηhi(x)

其中, h i ( x ) h_i(x) hi(x)是第 i i i棵树的预测结果。

5. 随机森林与GBDT的区别与联系

随机森林和梯度提升树都是基于决策树的集成学习方法,它们有一些相似之处,也有一些显著的区别。

  • 相似之处:

    • 都是通过组合多个决策树来构建强大的模型。
    • 都可以用于分类和回归问题。
  • 区别:

    • 随机森林是一种自助聚合技术,它通过随机抽样生成多个不同的训练集,并在每个训练集上训练一个决策树,最后通过投票或平均来获得最终结果。而梯度提升树是一种串行技术,它通过迭代地训练决策树,每个决策树都在尝试修正前一棵树的残差。
    • 随机森林中的每棵树是相互独立的,而梯度提升树中的每棵树是依次构建的,每一棵树都在尝试修正前一棵树的错误。
    • 随机森林中每棵树的预测结果是通过投票或平均来决定的,而梯度提升树中每棵树的预测结果是通过加权求和来决定的。

6. Python实现算法

以下是Python实现梯度提升树算法的示例代码:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from matplotlib.colors import ListedColormap# 加载数据集
iris = load_iris()
X, y = iris.data[:, :2], iris.target  # 取前两个特征# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 构建梯度提升树模型
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, random_state=42)
clf.fit(X_train, y_train)# 在测试集上进行预测
y_pred = clf.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("Gradient Boosting Accuracy:", accuracy)# 绘制分类结果
def plot_decision_regions(X, y, classifier, test_idx=None, resolution=0.02):markers = ('s', 'x', 'o', '^', 'v')colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')cmap = ListedColormap(colors[:len(np.unique(y))])x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),np.arange(x2_min, x2_max, resolution))Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)Z = Z.reshape(xx1.shape)plt.contourf(xx1, xx2, Z, alpha=0.3, cmap=cmap)plt.xlim(xx1.min(), xx1.max())plt.ylim(xx2.min(), xx2.max())for idx, cl in enumerate(np.unique(y)):plt.scatter(x=X[y == cl, 0], y=X[y == cl, 1],alpha=0.8, c=[cmap(idx)],marker=markers[idx], label=cl)# 可视化分类结果
plt.figure(figsize=(10, 6))
plot_decision_regions(X_test, y_test, classifier=clf)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend(loc='upper left')
plt.title('Gradient Boosting Classification Result on Test Set')
plt.show()

在这里插入图片描述

7. 总结

本文介绍了梯度提升树(Gradient Boosting Decision Trees,GBDT)算法的原理、算法流程、理论公式,并与随机森林进行了对比。梯度提升树是一种基于决策树的集成学习方法,通过迭代地训练决策树来不断提升模型性能。相比于随机森林,梯度提升树是一种串行技术,每个决策树都在尝试修正前一棵树的残差,因此在某些情况下可能会更加灵活和有效。通过Python实现了梯度提升树算法,并在鸢尾花数据集上进行了模型训练和评估。

http://www.lryc.cn/news/324635.html

相关文章:

  • 阿里二面:谈谈ThreadLocal的内存泄漏问题?问麻了。。。。
  • IOS面试题编程机制 46-50
  • web表单标签与练习(3.18)
  • 【协议-HTTP】
  • VUE3v-text、v-html、:style的理解
  • Dataset之UCI_autos_cars:UCI_autos_imports-85(汽车进口数据集)的简介、安装、案例应用之详细攻略
  • 结构体类型详细讲解(附带枚举,联合)
  • 编程生活day1--个位数统计、考试座位号、A-B、计算阶乘和
  • mysql体系结构及主要文件
  • PwnLab靶场PHP伪协议OSCP推荐代码审计命令劫持命令注入
  • 涉密信息系统集成资质八大类别办理条件是什么?
  • Shell脚本总结-反引号-${}-$()
  • Spring MVC入门(4)
  • RuoYi-Vue-Plus(基础知识点jackson、mybatisplus、redis)
  • 使用verillog编写KMP字符串匹配算法
  • 《每天十分钟》-红宝书第4版-对象、类与面向对象编程(五)
  • 华为ensp中rip动态路由协议原理及配置命令(详解)
  • 学习要不畏难
  • mysql迁移达梦数据库 Java踩坑合集
  • arm 解决Rk1126 画框颜色变色问题(RGB转NV12)
  • 113 链接集10--ctrl+左键单击多选
  • 详解JavaScript中this指向
  • c语言之在函数中传递指针
  • vue2 插槽(默认插槽 slot 、具名插槽 v-slot 、作用域插槽 slot-scope -- 插槽传值 )
  • (第79天)单机转 RAC:19C 单机 到 19C RAC
  • Spring Cloud微服务Actuator和Vue
  • Iterator对象功能学习
  • Linux的一些基本指令
  • 【tips】Git使用指南
  • 【字节序】