当前位置：首页 > news >正文

Spark MLlib 特征工程(上)

news 2025/6/26 1:56:32

文章目录

- Spark MLlib 特征工程(上)
- - 特征工程
  - - 预处理 Encoding：StringIndexer
    - 特征构建：VectorAssembler
    - 特征选择：ChiSqSelector
    - 归一化：MinMaxScaler
  - 模型训练
- 总结

Spark MLlib 特征工程(上)

前面我们一起构建了一个简单的线性回归模型，来预测美国爱荷华州的房价。从模型效果来看，模型的预测能力非常差。不过，事出有因，一方面线性回归的拟合能力有限，再者，我们使用的特征也是少的可怜。

要想提升模型效果，具体到我们“房价预测”的案例里就是把房价预测得更准，我们需要从特征和模型两个方面着手，逐步对模型进行优化。

在机器学习领域，有一条尽人皆知的“潜规则”：Garbage in，garbage out。它的意思是说，当我们喂给模型的数据是“垃圾”的时候，模型“吐出”的预测结果也是“垃圾”。垃圾是一句玩笑话，实际上，它指的是不完善的特征工程。

特征工程不完善的成因有很多，比如数据质量参差不齐、特征字段区分度不高，还有特征选择不到位、不合理，等等，我们必须要牢记一点：特征工程制约着模型效果，它决定了模型效果的上限，也就是“天花板”。而模型调优，仅仅是在不停地逼近这个“天花板”而已。因此，提升模型效果的第一步，就是要做好特征工程。

打开Spark MLlib 特征工程页面，你会发现这里罗列着数不清的特征处理函数，让人眼花缭乱。作为初学者，看到这么长的列表，更是会感到无所适从。

结合过往的应用经验࿰

http://www.lryc.cn/news/426298.html

相关文章：

《SPSS零基础入门教程》学习笔记——03.变量的统计描述

2024年杭州市网络与信息安全管理员（网络安全管理员）职业技能竞赛的通知

SpringBoot参数校验详解

安全基础学习-SHA-1(Secure Hash Algorithm 1)算法

leetcode350. 两个数组的交集 II，哈希表

基于YOLOv8的缺陷检测任务模型训练

【upload]-ini-[SUCTF 2019]CheckIn-笔记

uniapp条件编译使用教学(#ifdef、#ifndef)

NXP i.MX8系列平台开发讲解 - 4.1.2 GNSS 篇(二) - 卫星导航定位原理

怎样在 SQL 中对一个包含销售数据的表按照销售额进行降序排序？

DIAdem 与 LabVIEW

UE虚幻引擎可以云渲染吗？应用趋势与挑战了解

实战分享：DefenderUI在企业环境中的部署与应用

中英双语介绍金融经济中的鹰派 (Hawkish)和鸽派 (Dovish)

Android 开发中常用的布局类型及其选择指南

短视频SDK解决方案，降低行业开发门槛

【C++】String常见函数用法

LeetCode49.字母异位词分组

Nginx日志按天分割

文本摘要简介

3.MySQL面试题之Redis 和 Mysql 如何保证数据一致性？

浅谈TCP协议、UDP协议

SQL业务题: 从不订购的客户

怎么直接在PDF上修改内容？随心编辑PDF内容

聊天室项目测试报告

语音识别（实时语音转录）——funasr的详细部署和使用教程(包括实时语音转录)

【网络编程】TCP机械臂测试

笔记：在WPF中如何注册控件级全局事件和应用程序级全局事件

【Linux系列】telnet使用入门

音视频相关知识