当前位置: 首页 > news >正文

LightGBM 进行回归建模的流程

LightGBM 进行回归建模的流程

文章最前: 我是Octopus,这个名字来源于我的中文名–章鱼;我热爱编程、热爱算法、热爱开源。所有源码在我的个人github ;这博客是记录我学习的点点滴滴,如果您对 Python、Java、AI、算法有兴趣,可以关注我的动态,一起学习,共同进步。

加载数据:

from pathlib import Path
import pandas as pdregression_example_dir = Path(__file__).absolute().parents[1] / "regression"
df_train = pd.read_csv(str(regression_example_dir / "regression.train"), header=None, sep="\t")
df_test = pd.read_csv(str(regression_example_dir / "regression.test"), header=None, sep="\t")

这里使用 pandas 加载训练数据和测试数据。数据文件路径是通过 Path 模块构建的,假设数据存储在项目目录的 regression 文件夹中。

数据预处理

y_train = df_train[0]
y_test = df_test[0]
X_train = df_train.drop(0, axis=1)
X_test = df_test.drop(0, axis=1)

将数据分为特征 (X_train, X_test) 和标签 (y_train, y_test)。

创建 LightGBM 数据集:

import lightgbm as lgblgb_train = lgb.Dataset(X_train, y_train)
lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)

将 pandas DataFrame 转换为 LightGBM 所需的 Dataset 格式。

设置参数

params = {"boosting_type": "gbdt","objective": "regression","metric": {"l2", "l1"},"num_leaves": 31,"learning_rate": 0.05,"feature_fraction": 0.9,"bagging_fraction": 0.8,"bagging_freq": 5,"verbose": 0,
}

配置 LightGBM 的训练参数,包括提升类型、目标函数、评估指标、叶子节点数、学习率等。

训练模型

gbm = lgb.train(params, lgb_train, num_boost_round=20, valid_sets=lgb_eval, callbacks=[lgb.early_stopping(stopping_rounds=5)]
)

使用 train 方法进行训练,指定评估数据集,并设置提前停止的回调函数以防止过拟合。

保存模型:

gbm.save_model("model.txt")

将训练好的模型保存到文件。

预测和评估:

from sklearn.metrics import mean_squared_errory_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration)
rmse_test = mean_squared_error(y_test, y_pred) ** 0.5
print(f"The RMSE of prediction is: {rmse_test}")

使用测试集进行预测,并计算预测结果的均方根误差 (RMSE)。

这段代码可以作为一个模板,用于基于 LightGBM 的回归任务。确保你已经安装了所需的库 (pandas, scikit-learn, lightgbm) 并有合适的数据集。

http://www.lryc.cn/news/362277.html

相关文章:

  • 【Linux】多进程基础--信号
  • 若依项目部署(Linux2.0)
  • python小练习03
  • 【机器学习】机器学习在深度学习领域中的作用:半监督学习的视角
  • C#WPF数字大屏项目实战01--开发环境与项目创建
  • python中字符串的各类方法
  • DataGrip 数据库连接客户端
  • JS片段:生成 UUID
  • 小学数学出题器-Word插件-大珩助手
  • 短剧平台源码:打造个性化娱乐体验的核心功能
  • 【MySQL】MySQL 图形化界面 - 使用说明(MySQL Workbench)
  • Shell 编程之免交互
  • github有趣项目:Verilog在线仿真( DigitalJS+edaplayground)
  • 性能测试学习-基本使用-元件组件介绍(二)
  • 基于大模型的智慧零售教育科研平台——技术方案
  • C# using的几个用途
  • MyBatis3.4全集笔记
  • IDEA一键启动多个微服务
  • 【Python3】random.choices 权重随机选取 详解
  • 【面试题-015】Redis的线程模型是什么 为什么速度快
  • EasyV开发人员的使用说明书
  • 构造列表初始化和构造初始化区别
  • Message passing mechanism (消息传递机制)
  • 详解 Spark SQL 代码开发之数据读取和保存
  • Pulsar 社区周报 | No.2024-05-30 | BIGO 百页小册《Apache Pulsar 调优指南》
  • 第二证券股票杠杆:4分钟直线涨停!这一赛道,AH股集体爆发!
  • JavaScript 进阶征途:解锁Function奥秘,深掘Object方法精髓
  • 斜拉桥智慧施工数字孪生
  • 【chatGPT API】Function Calling:将自然语言转换为API调用或数据库查询
  • Oracle Hint /*+APPEND*/插入性能总结