特征筛选步骤
Step 1数据清洗
删除缺失值高于阈值的变量
Step 2:初步特征剔除(基于方差 / 研究意义)
排除无区分度或无研究意义的特征,减少后续计算量:
- 方差筛选:用 “方差选择法” 剔除方差接近 0 的特征;
- 常识筛选:直接排除已知与目标变量无关的特征;
Step 3:单变量统计检验
- 数值型特征:用目标变量相关性法(如皮尔逊相关)筛选与目标变量相关系数较高的特征;
- 类别型特征:用卡方检验法筛选与目标变量关联性强(卡方值高)的特征。
Step 4:特征间共线性处理(减少冗余)
特征常存在共线性,需剔除冗余特征以避免模型偏倚:
- 对 Step 3 保留的数值型特征,通过特征间相关性法计算特征间相关系数(皮尔逊 / 斯皮尔曼),若两个的相关系数绝对值 > 0.8(强共线性),结合目标意义保留 1 个;
- 对类别型特征,通过互信息法判断共线性,保留更基础的特征。
Step 5:多变量模型筛选(强化特征与目标的关联)
单变量筛选可能忽略特征间的交互作用,需用多变量方法进一步筛选:
- 小样本场景:优先用L1 正则化(Lasso)(压缩冗余特征系数至 0)或递归消除法(结合逻辑回归,逐步剔除权重最小的特征),避免过拟合;
- 大样本 / 混合类型特征:用梯度提升决策树(LightGBM),其可自动处理类别型特征及非线性关系,通过特征重要性(分裂增益)筛选核心特征;
- 需解释性的场景:用逻辑回归系数绝对值辅助筛选(系数绝对值越大,特征对目标变量的影响越显著,需结合 OR 值及 95% CI)。