当前位置：首页 > news >正文

LGB的两种写法

news 2025/7/27 22:48:25

方法一

import lightgbm as lgb
import pandas as pd
from sklearn.model_selection import train_test_split, KFold
from sklearn.metrics import accuracy_score# 读取训练集和测试集数据
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')# 分割特征和标签
X_train = train_data.drop('label', axis=1)
y_train = train_data['label']# 创建 LightGBM 数据集
train_dataset = lgb.Dataset(X_train, label=y_train)# 设置模型参数
params = {'boosting_type': 'gbdt','objective': 'binary','metric': 'binary_logloss','num_leaves': 31,'learning_rate': 0.05
}# 定义 k-fold 交叉验证
kfold = KFold(n_splits=5, shuffle=True, random_state=42)# 用于存储每个 fold 的预测结果
test_predictions = []# 进行 k-fold 交叉验证
for train_index, val_index in kfold.split(X_train):# 划分训练集和验证集X_train_fold, X_val_fold = X_train.iloc[train_index], X_train.iloc[val_index]y_train_fold, y_val_fold = y_train.iloc[train_index], y_train.iloc[val_index]# 创建当前 fold 的 LightGBM 数据集train_fold_dataset = lgb.Dataset(X_train_fold, label=y_train_fold)val_fold_dataset = lgb.Dataset(X_val_fold, label=y_val_fold)# 训练模型model = lgb.train(params, train_fold_dataset, num_boost_round=100, valid_sets=[val_fold_dataset], early_stopping_rounds=10, verbose_eval=10)# 在验证集上进行预测val_predictions = model.predict(X_val_fold, num_iteration=model.best_iteration)# 将当前 fold 的预测结果加入列表test_predictions.append(val_predictions)# 计算 k-fold 预测结果的平均值
final_predictions = sum(test_predictions) / len(test_predictions)# 二分类问题的阈值处理
final_predictions = (final_predictions > 0.5).astype(int)# 在测试集上进行预测
X_test = test_data  # 假设测试集特征和训练集格式相同
y_test_predictions = model.predict(X_test, num_iteration=model.best_iteration)# 二分类问题的阈值处理
y_test_predictions = (y_test_predictions > 0.5).astype(int)# 输出测试集预测结果
print(y_test_predictions)

方法二

import lightgbm as lgb
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score# 读取训练集和测试集数据
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')# 分割特征和标签
X_train = train_data.drop('label', axis=1)
y_train = train_data['label']# 定义模型参数
params = {'boosting_type': 'gbdt','objective': 'binary','metric': 'binary_logloss','num_leaves': 31,'learning_rate': 0.05
}# 定义 k-fold 交叉验证
kfold = KFold(n_splits=5, shuffle=True, random_state=42)# 用于存储每个 fold 的预测结果
test_predictions = []# 进行 k-fold 交叉验证
for train_index, val_index in kfold.split(X_train):# 划分训练集和验证集X_train_fold, X_val_fold = X_train.iloc[train_index], X_train.iloc[val_index]y_train_fold, y_val_fold = y_train.iloc[train_index], y_train.iloc[val_index]# 创建 LightGBM 模型model = lgb.LGBMClassifier(**params)# 训练模型model.fit(X_train_fold, y_train_fold)# 在验证集上进行预测val_predictions = model.predict(X_val_fold)# 将当前 fold 的预测结果加入列表test_predictions.append(val_predictions)# 计算 k-fold 预测结果的平均值
final_predictions = sum(test_predictions) / len(test_predictions)# 二分类问题的阈值处理
final_predictions = (final_predictions > 0.5).astype(int)# 在测试集上进行预测
X_test = test_data  # 假设测试集特征和训练集格式相同
y_test_predictions = model.predict(X_test)# 二分类问题的阈值处理
y_test_predictions = (y_test_predictions > 0.5).astype(int)# 输出测试集预测结果
print(y_test_predictions)