当前位置: 首页 > news >正文

特征筛选步骤

Step 1数据清洗

删除缺失值高于阈值的变量

Step 2:初步特征剔除(基于方差 / 研究意义)

排除无区分度或无研究意义的特征,减少后续计算量:

  • 方差筛选:用 “方差选择法” 剔除方差接近 0 的特征;
  • 常识筛选:直接排除已知与目标变量无关的特征;

Step 3:单变量统计检验

  • 数值型特征:用目标变量相关性法(如皮尔逊相关)筛选与目标变量相关系数较高的特征;
  • 类别型特征:用卡方检验法筛选与目标变量关联性强(卡方值高)的特征。

Step 4:特征间共线性处理(减少冗余)

特征常存在共线性,需剔除冗余特征以避免模型偏倚:

  • 对 Step 3 保留的数值型特征,通过特征间相关性法计算特征间相关系数(皮尔逊 / 斯皮尔曼),若两个的相关系数绝对值 > 0.8(强共线性),结合目标意义保留 1 个;
  • 对类别型特征,通过互信息法判断共线性,保留更基础的特征。

Step 5:多变量模型筛选(强化特征与目标的关联)

单变量筛选可能忽略特征间的交互作用,需用多变量方法进一步筛选:

  • 小样本场景:优先用L1 正则化(Lasso)(压缩冗余特征系数至 0)或递归消除法(结合逻辑回归,逐步剔除权重最小的特征),避免过拟合;
  • 大样本 / 混合类型特征:用梯度提升决策树(LightGBM),其可自动处理类别型特征及非线性关系,通过特征重要性(分裂增益)筛选核心特征;
  • 需解释性的场景:用逻辑回归系数绝对值辅助筛选(系数绝对值越大,特征对目标变量的影响越显著,需结合 OR 值及 95% CI)。
http://www.lryc.cn/news/584033.html

相关文章:

  • 计算机视觉 之 数字图像处理基础
  • NAT技术(网络地址转换)
  • IPv4和IPv6双栈配置
  • CRT 不同会导致 fopen 地址不同
  • 飞书AI技术体系
  • Java 正则表达式白皮书:语法详解、工程实践与常用表达式库
  • OSPF协议:核心概念与配置要点解析
  • 栈题解——有效的括号【LeetCode】两种方法
  • ACL协议:核心概念与配置要点解析
  • LlamaFactory Demo
  • 强缓存和协商缓存详解
  • SQL进阶:自连接的用法
  • 深度探索:实时交互与增强现实翻译技术(第六篇)
  • 【郑大二年级信安小学期】Day9:XSS跨站攻击XSS绕过CSRF漏洞SSRF漏洞
  • 医院多部门协同构建知识库-指南库-预测模型三维网络路径研究
  • 【C++】第十四节—模版进阶(非类型模版参数+模板的特化+模版分离编译+模版总结)
  • OSPF实验以及核心原理全解
  • vue引入应用通义AI大模型-(一)前期准备整理思路
  • Vue+Element Plus 中按回车刷新页面问题排查与解决
  • Scala实现网页数据采集示例
  • AI 智能体:开启自动化协作新时代
  • 2025.07.09华为机考真题解析-第三题300分
  • CentOs 7 MySql8.0.23之前的版本主从复制
  • 树莓派5+Ubuntu24.04 LTS ROS2 N10P镭神激光雷达 保姆级教程
  • ubuntu server配置静态IP
  • java(2025/7/10)
  • 【LeetCode 热题 100】19. 删除链表的倒数第 N 个结点——双指针+哨兵
  • 如何把Arduino IDE中ESP32程序bin文件通过乐鑫flsah_download_tool工具软件下载到ESP32中
  • 【音视频】HTTP协议介绍
  • 文心大模型4.5开源测评:保姆级部署教程+多维度测试验证