当前位置: 首页 > news >正文

Spark MLlib 模型训练

Spark MLlib 模型训练

  • 决策树
  • 随机森林
  • GBDT

Spark MLlib 开发框架下 :

  • 监督学习 : 回归 (Regression) , 分类 (Classification) , 协同过滤 (Collaborative Filtering)
  • 非监督学习 : 聚类 (Clustering) 、频繁项集 (Frequency Patterns)

在这里插入图片描述

例子分类 :

在这里插入图片描述

算法分类 :

算法分类算法子分类算法原理场景
监督学习回归 , 分类决策树遍历每个特征, 构建决策树解决分类, 回归
选所有数字字段GBDT每个树训练 , 都基于前树的拟合样本残差 , 使预测值逼近真实值
特征选择随机森林通过多树的随机选取训练样本与特征,
归一化ALS用户, 物品推荐
非监督学习聚类K-means
频繁项集FPGrowth

决策树

决策树 (Decision Trees) : 根据样本特征向量而构建的树形结构

  • 决策树组成 : 由节点 (Nodes) 与有向边 (Vertexes)
  • 节点分类 :
    • 内部节点 : 样本特征
    • 叶子节点 : 分类

决策树示意图 :

在这里插入图片描述

随机森林

随机森林 (Random Forest)

  • 树与树相互独立,不存在任何依赖关系
  • 最终的预测结果,以多数决策树为结果

在这里插入图片描述

GBDT

GBDT : 用多棵决策树来拟合数据样本,但树与树之间是有依赖关系的,每棵树的构建,都基于前棵树的训练结果

GBDT示意图 :

在这里插入图片描述

拟合残差 :

  • 样本残差: 预测值与真实值 (Ground Truth) 之间的差值

在这里插入图片描述

http://www.lryc.cn/news/36744.html

相关文章:

  • Python中变量的作用域精讲
  • 数据仓库工程师的工作职责的相关介绍
  • ESP UART 介绍
  • 第十三届蓝桥杯省赛Python大学B组复盘
  • linux入门---vim的配置
  • Python简写操作(for、if简写、匿名函数)
  • 毕业设计常用模块之温湿度模块DHT11模块使用
  • Cadence Allegro 导出Design Rules Net Shorts Check(DRC)Report报告详解
  • 第 46 届世界技能大赛浙江省选拔赛“网络安全“项目C模块任务书
  • C++:详解C++11 线程(一):MingGW 各版本区别及安装说明
  • 第十二章 ArrayList和 LinkedList的区别
  • 案例06-复用思想的接口和SQL
  • 【Java学习笔记】17.Java 日期时间(2)
  • 【学习Docker(八)】Docker Canal的安装与卸载
  • python的django框架从入门到熟练【保姆式教学】第三篇
  • Open3D(C++) Ransac拟合球体(详细过程版)
  • Antlr Tool与antlr runtime的版本一致性问题
  • 嵌入式中CAN测试自动化方法分析
  • 基于c++、opencv、cuda、Visual Studio编程
  • MATLAB——DFT(离散傅里叶变换)
  • 高端Zynq ultrascale+使用GTH回环测试 提供2套工程源码和技术支持
  • 入门(Createing a scene)
  • Unity入门精要03---透明效果
  • 一文解码:如何在人工智能热潮下实现产业“智”变
  • webshell管理工具-菜刀的管理操作
  • dl----算法常识100例
  • 京东百亿补贴,不要把方向搞偏了
  • Java中的static与final关键字
  • 开学新装备 - 学生党是否该入手 MacBook
  • 【前端技巧】ESLint忽略检查行和文件