当前位置：首页 > article >正文

基于机器学习的心脏病预测模型构建与可解释性分析

article 2025/8/23 23:48:47

一、引言

心脏病是威胁人类健康的重要疾病之一，早期预测和诊断对防治心脏病具有重要意义。本文利用公开的心脏病数据集，通过机器学习算法构建预测模型，并使用 SHAP 值进行模型可解释性分析，旨在为心脏病的辅助诊断提供参考。

二、数据准备与预处理

1. 数据加载

数据集来源于 Kaggle 公开的心脏病数据集（heart.csv），包含 303 条样本和 14 个特征，目标变量为是否患有心脏病（target，0 表示无，1 表示有）。关键代码如下：

data = pd.read_csv('heart.csv')
print(f"数据规模: {data.shape}")  # 输出：数据规模: (303, 14)
print("目标分布:\n", data['target'].value_counts(normalize=True))

目标分布显示正负样本比例约为 6:4，存在轻微不平衡，后续通过分层抽样处理。

2. 特征划分

数值型特征：年龄、血压、胆固醇等连续变量，共 6 个。

分类型特征：性别、胸痛类型、血糖等离散变量，共 8 个。

cat_features = ['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'ca', 'thal']
num_features = [c for c in X.columns if c not in cat_features]

3. 预处理流程

采用 ColumnTransformer 构建预处理管道：

数值型特征：标准化（StandardScaler）

分类型特征：独热编码（OneHotEncoder，丢弃第一个类别避免多重共线性）

preprocessor = ColumnTransformer([('num', StandardScaler(), num_features),('cat', OneHotEncoder(drop='first', handle_unknown='ignore'), cat_features)
])

三、模型训练与对比

1. 算法选择与超参数调优

选取 4 种经典分类算法，使用 GridSearchCV 进行 5 折交叉验证，以 F1 分数为优化指标：

随机森林（RF）：调优参数包括树的数量（n_estimators）和最大深度（max_depth）

逻辑回归（LR）：调优参数为正则化系数（C）

决策树（DT）：调优参数为最大深度（max_depth）

支持向量机（SVM）：调优参数为正则化系数（C）和核函数（kernel）

2. 训练流程

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y  # 分层抽样保持样本分布
)for name, cfg in model_configs.items():pipe = Pipeline([('pre', preprocessor), ('model', cfg['model'])])grid = GridSearchCV(pipe, cfg['params'], cv=5, scoring='f1', n_jobs=-1)grid.fit(X_train, y_train)  # 训练模型# 计算评估指标

3. 模型性能对比

模型	最佳参数	准确率	精确率	召回率	F1 分数	ROC-AUC
rf	{'model__max_depth': 10, 'model__n_estimators': 200}	0.87	0.88	0.85	0.86	0.93
lr	{'model__C': 1.0}	0.85	0.85	0.83	0.84	0.91
dt	{'model__max_depth': 10}	0.83	0.83	0.82	0.82	0.89
svm	{'model__C': 1, 'model__kernel': 'rbf'}	0.86	0.87	0.83	0.85	0.92