当前位置: 首页 > news >正文

Spark MLlib 特征工程(上)

文章目录

    • Spark MLlib 特征工程(上)
      • 特征工程
        • 预处理 Encoding:StringIndexer
        • 特征构建:VectorAssembler
        • 特征选择:ChiSqSelector
        • 归一化:MinMaxScaler
      • 模型训练
    • 总结

Spark MLlib 特征工程(上)

前面我们一起构建了一个简单的线性回归模型,来预测美国爱荷华州的房价。从模型效果来看,模型的预测能力非常差。不过,事出有因,一方面线性回归的拟合能力有限,再者,我们使用的特征也是少的可怜。

要想提升模型效果,具体到我们“房价预测”的案例里就是把房价预测得更准,我们需要从特征和模型两个方面着手,逐步对模型进行优化。

在机器学习领域,有一条尽人皆知的“潜规则”:Garbage in,garbage out。它的意思是说,当我们喂给模型的数据是“垃圾”的时候,模型“吐出”的预测结果也是“垃圾”。垃圾是一句玩笑话,实际上,它指的是不完善的特征工程

特征工程不完善的成因有很多,比如数据质量参差不齐、特征字段区分度不高,还有特征选择不到位、不合理,等等,我们必须要牢记一点:特征工程制约着模型效果,它决定了模型效果的上限,也就是“天花板”。而模型调优,仅仅是在不停地逼近这个“天花板”而已。因此,提升模型效果的第一步,就是要做好特征工程。

打开Spark MLlib 特征工程页面,你会发现这里罗列着数不清的特征处理函数,让人眼花缭乱。作为初学者,看到这么长的列表,更是会感到无所适从。

image-20240802132719155

结合过往的应用经验࿰

http://www.lryc.cn/news/426298.html

相关文章:

  • 《SPSS零基础入门教程》学习笔记——03.变量的统计描述
  • 2024年杭州市网络与信息安全管理员(网络安全管理员)职业技能竞赛的通知
  • SpringBoot参数校验详解
  • 安全基础学习-SHA-1(Secure Hash Algorithm 1)算法
  • leetcode350. 两个数组的交集 II,哈希表
  • 基于YOLOv8的缺陷检测任务模型训练
  • 【upload]-ini-[SUCTF 2019]CheckIn-笔记
  • uniapp条件编译使用教学(#ifdef、#ifndef)
  • NXP i.MX8系列平台开发讲解 - 4.1.2 GNSS 篇(二) - 卫星导航定位原理
  • 怎样在 SQL 中对一个包含销售数据的表按照销售额进行降序排序?
  • DIAdem 与 LabVIEW
  • UE虚幻引擎可以云渲染吗?应用趋势与挑战了解
  • 实战分享:DefenderUI在企业环境中的部署与应用
  • 中英双语介绍金融经济中的鹰派 (Hawkish)和鸽派 (Dovish)
  • Android 开发中常用的布局类型及其选择指南
  • 短视频SDK解决方案,降低行业开发门槛
  • 【C++】String常见函数用法
  • LeetCode49.字母异位词分组
  • Nginx日志按天分割
  • 文本摘要简介
  • 3.MySQL面试题之Redis 和 Mysql 如何保证数据一致性?
  • 浅谈TCP协议、UDP协议
  • SQL业务题: 从不订购的客户
  • 怎么直接在PDF上修改内容?随心编辑PDF内容
  • 聊天室项目测试报告
  • 语音识别(实时语音转录)——funasr的详细部署和使用教程(包括实时语音转录)
  • 【网络编程】TCP机械臂测试
  • 笔记:在WPF中如何注册控件级全局事件和应用程序级全局事件
  • 【Linux系列】telnet使用入门
  • 音视频相关知识