当前位置: 首页 > news >正文

python:非常流行和重要的Python机器学习库scikit-learn 介绍

scikit-learn 是如此重要,是Python 机器学习的瑞士军刀,以至于我们需要单独对它进行一些介绍。scikit- learn 包含众多顶级机器学习算法,它主要有六大类的基本功能,分别是分类、回归、聚类、数据降维、模型选择和数据预处理。

Scikit-learn 核心模块给大家统计如下。

1. 数据预处理与特征工程
功能类别主要函数/类关键参数应用场景版本增强
标准化缩放StandardScalerwith_mean, with_std高斯分布数据预处理0.12+
MinMaxScalerfeature_range神经网络输入归一化0.13+
RobustScalerquantile_range含异常值数据0.17+
编码转换OneHotEncoderdrop, sparse_output类别特征转换0.20+ 增强
OrdinalEncodercategories有序类别编码0.20+
LabelEncoder-目标变量编码初始版本
缺失值处理SimpleImputerstrategy, fill_value缺失值填补0.20+ 重构
KNNImputern_neighbors, weights基于近邻的缺失值填补0.22+
特征生成PolynomialFeaturesdegree, interaction_only特征多项式扩展0.10+
FunctionTransformerfunc, inverse_func自定义特征转换0.17+
特征选择SelectKBestscore_func, k基于统计检验的特征选择0.13+
RFE (递归特征消除)estimator, n_features_to_select包裹式特征选择0.16+
2.分类算法
算法类型实现类关键超参数时间复杂度适用数据规模
线性模型LogisticRegressionC, penalty, solverO(n_samples * n_features)10^6样本
Perceptronpenalty, alphaO(n_samples * n_features)10^6样本
支持向量机SVCC, kernel, gammaO(n_samples^2 * n_features)10^4样本
NuSVCnu, kernelO(n_samples^2 * n_features)10^4样本
决策树DecisionTreeClassifiermax_depth, criterionO(n_samples * n_features * log(n_samples))10^5样本
集成方法RandomForestClassifiern_estimators, max_depthO(n_estimators * n_samples * n_features * log(n_samples))10^6样本
GradientBoostingClassifierlearning_rate, max_depthO(n_estimators * n_samples * n_features)10^5样本
AdaBoostClassifiern_estimators, algorithmO(n_estimators * n_samples * n_features)10^5样本
神经网络MLPClassifierhidden_layer_sizes, activationO(n_samples * n_features * hidden_units)10^5样本
朴素贝叶斯GaussianNBvar_smoothingO(n_classes * n_features)10^6样本
MultinomialNBalphaO(n_classes * n_feature

3.回归算法

4.聚类算法

算法类型实现类关键超参数适用场景创新版本
划分聚类KMeansn_clusters, init球形簇、均匀大小0.23+ 优化
MiniBatchKMeansbatch_size大规模数据0.13+
密度聚类DBSCANeps, min_samples任意形状簇、噪声识别初始版本
层次聚类AgglomerativeClusteringn_clusters, linkage簇层次结构分析0.14+
谱聚类SpectralClusteringn_clusters, affinity图结构数据0.15+
高斯混合GaussianMixturen_components概率软聚类0.18+
5.降维与流形学习
算法类型实现类关键超参数降维能力计算复杂度
矩阵分解PCAn_components, svd_solver线性降维O(n_samples^2 * n_features)
TruncatedSVDn_components, algorithm稀疏数据降维O(n_samples * n_features)
流形学习TSNEperplexity, learning_rate可视化降维O(n_samples^2 * n_features)
Isomapn_neighbors, n_components非线性降维O(n_samples^2 * n_features)
特征选择FactorAnalysisn_components, svd_method隐变量提取O(n_samples^2 * n_fe
6.模型验证
工具类主要功能关键参数输出类型
cross_val_score自动交叉验证评分scoring, cv评分数组
cross_validate多指标交叉验证scoring, return_train_score结果字典
learning_curve生成学习曲线数据train_sizes, cv训练/验证得分
7.超参数优化
工具类优化策略适用场景并行能力
GridSearchCV网格搜索小参数空间全并行
RandomizedSearchCV随机搜索大参数空间全并行
HalvingGridSearchCV连续减半搜索大规模参数空间部分并行
8.评估指标
指标类型分类指标回归指标聚类指标
基础指标accuracy_scoremean_squared_erroradjusted_rand_score
概率指标roc_auc_scorer2_scoresilhouette_score
多类别指标f1_score (average=macro)explained_variance_scorecalinski_harabasz_score
不平衡数据balanced_accuracy_scoremean_absolute_percentage_errordavies_bouldin_sco

伙伴们可以保存使用。

请大家点赞 、收藏和加关注吧。

http://www.lryc.cn/news/612269.html

相关文章:

  • 毕业设计选题推荐之基于Spark的在线教育投融数据可视化分析系统 |爬虫|大数据|大屏|预测|深度学习|数据分析|数据挖掘
  • Packets Frames 数据包和帧
  • 大数据存储域——Hive数据仓库工具
  • 数据结构---二级指针(应用场景)、内核链表、栈(系统栈、实现方式)、队列(实现方式、应用)
  • STM32学习记录--Day8
  • 键帽(dp)
  • 【数字图像处理系列笔记】Ch03:图像的变换
  • Redis Redis 常见数据类型
  • 高等数学(工本)----00023 速记宝典
  • JAVA高级编程第八章
  • windows系统创建ubuntu系统
  • Python与自动化运维:构建智能IT基础设施的终极方案
  • 第七章课后综合练习
  • 学习日志29 python
  • 达梦数据库数据守护集群启动与关闭标准流程
  • 对接钉钉审批过程记录(C#版本)
  • 什么是逻辑外键?我们要怎么实现逻辑外键?
  • IDEA 2025下载安装教程【超详细】保姆级图文教程(附安装包)
  • 2 SpringBoot项目对接单点登录说明
  • 【0基础PS】PS工具详解--直接选择工具
  • capset系统调用及示例
  • 数据安全防护所需要的关键要素
  • 数据结构学习(days04)
  • 嵌入式C语言连连看小游戏开发实现详解
  • Java 大视界 -- 基于 Java 的大数据实时流处理在工业物联网设备故障预测与智能运维中的应用(384)
  • 93、【OS】【Nuttx】【构建】cmake menuconfig 目标
  • linux 使用docker时开放的端口不受防火墙控制的解决方案
  • 无监督学习之K-means算法
  • 第一性原理科学计算服务器如何选择配置-CPU选择篇
  • ADM2587EBRWZ-REEL7_ADI亚德诺_隔离RS-485收发器_集成电路IC