当前位置：首页 > news >正文

CatBoost 完整解析：类别特征友好的梯度提升框架

news 2025/8/3 13:12:17

1️⃣ 什么是 CatBoost？

CatBoost（Categorial Boosting）是由 Yandex（俄罗斯搜索引擎公司）开源的梯度提升框架，专为类别特征处理优化。

核心特点：

无需手动 one-hot / LabelEncoding，原生支持类别特征，并解决梯度偏差问题

CatBoost 的定位：

与 LightGBM、XGBoost 同属 GBDT 家族
专注于类别特征和小样本高维稀疏场景

2️⃣ 核心特点与优势

类别特征原生支持
- 不需要手动编码
- 内部使用目标统计特征（Target Statistics） + 排序编码（Ordered Target Encoding）
防止预测偏移（Prediction Shift）
- 使用独特的 Ordered Boosting 策略，避免类别统计信息泄漏
自动特征组合
- CatBoost 自动进行类别特征组合，提升模型表达力
支持 GPU 加速
- 与 LightGBM 类似，支持大规模数据加速

3️⃣ 与 GBDT / XGBoost / LightGBM 的关系

GBDT：原始算法，支持数值特征
XGBoost：工程优化、正则化、二阶梯度
LightGBM：直方图算法 + 叶子优先生长 + 大数据支持
CatBoost：针对类别特征处理的优化，提升小样本和类别型特征场景效果

4️⃣ 类别特征处理机制（核心亮点）

4.1 Target Statistics（目标统计）

对于类别特征 $x_{cat}$ ，CatBoost 使用目标变量的统计量作为编码：

$\text{TS}(x_{cat}) = \frac{\sum_{i: x_{cat}(i) = v} y_i + a \cdot P}{n_v + a}$

$n_v$ ：类别 v 出现的次数
$P$ ：先验概率
$a$ ：平滑系数

4.2 Ordered Target Encoding（排序编码）

为了防止信息泄漏（即使用当前样本的标签参与统计），CatBoost 使用样本顺序：

将数据集随机排列
编码时只使用当前样本之前的数据计算统计量

这样有效避免训练时标签信息泄漏，提高泛化能力。

5️⃣ 数学推导与优化策略

CatBoost 目标函数与 GBDT 类似：

$\mathcal{L}^{(t)} = \sum_i l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) + \Omega(f_t)$

不同点：

类别特征编码采用 TS + Ordered Target Encoding
Boosting 方式使用 Ordered Boosting：
- 避免传统 Boosting 的预测偏移问题
- 提高类别特征建模效果

CatBoost 同时支持二阶梯度优化，与 XGBoost/LightGBM 类似。

6️⃣ Python 实现（catboost 库）

from catboost import CatBoostClassifier, Pool
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score# 加载数据
X, y = load_iris(return_X_y=True)# 假设前两列是类别特征（这里只是示例）
cat_features = [0, 1]# 构建 CatBoost 模型
cat_clf = CatBoostClassifier(iterations=100,         # 树的数量learning_rate=0.1,      # 学习率depth=6,                # 树深度cat_features=cat_features,verbose=0,              # 不输出中间信息random_state=42
)cat_clf.fit(X, y, cat_features=cat_features)# 模型评估
y_pred = cat_clf.predict(X)
print("训练集精度：", accuracy_score(y, y_pred))# 特征重要性
print("Feature Importance:", cat_clf.get_feature_importance())