数学建模 15 逻辑回归与随机森林
逻辑回归(用于分类)
用途:通过已有数据,计算出线性方程的参数w后,可以用于预测某一个物品属于某一类的概率,[0,1];
求解思想:逻辑回归通过最大似然估计(Maximum Likelihood Estimation, MLE) 学习参数w,核心思想是:找到一组w
,使得 “所有训练样本的实际类别(y=1 或 y=0)与模型预测的概率(P (y=1|x))尽可能一致”。
情形适用:标签与属性有 极近线性关系,样本量需远大于特征量否则容易过拟合,特征间不能存在强相关性(如 “身高 cm” 和 “身高 m”),否则参数估计不稳定,必须进行数据的标准化/正向化/归一化;
随机森林(用于分类和回归预测)
输出是: 特征重要性
适用范围:数据之间存在非线性关联,可解释性强,可以输出重要特征。
不适用范围:数据维度极高且样本量少的场景(如 100 个样本、1000 个特征):易因 “特征随机选择” 导致信息利用率低。
得到主成分之后的选择: