当前位置: 首页 > news >正文

机器学习笔记 - 数据科学中基于 Scikit-Learn、Tensorflow、Pandas 和 Scipy的7种最常用的特征工程技术

一、概述

        特征工程描述了制定相关特征的过程,这些特征尽可能准确地描述底层数据科学问题,并使算法能够理解和学习模式。换句话说:您提供的特征可作为将您自己对世界的理解和知识传达给模型的一种方式。

        每个特征描述一种信息“片段”。这些部分的总和允许算法得出有关目标变量的结论 - 至少如果您有一个实际包含有关目标变量的信息的数据集。据《福布斯》杂志报道,数据科学家大约花费 80% 的时间收集和准备相关数据,其中仅数据清理和数据整理就占用了大约 60% 的时间。

        特征工程是指在使用机器学习或统计建模创建预测模型时,使用领域知识从原始数据中选择和转换最相关变量的过程。

        这里主要是整理了一些最常用的特征工程技术。

二、Encoding

1、Label Encoding

        标签编码是一种用于将分类列转换为数字列的技术,以便可以通过仅采用数字数据的机器学习模型来拟合它们。这是机器学习项目中重要的预处理步骤。使用 0 到 n_classes-1 之间的值对目标标签进行编码。该转换器应用于编码目标值, y,而不是输入X

from sklearn import preprocessing# 创建编码器
le = preprocessing.LabelEncoder()# 进行拟合
le.fit([1, 2, 2, 6])# 打印拟合
http://www.lryc.cn/news/136781.html

相关文章:

  • 深眸科技创新赋能视觉应用产品,以AI+机器视觉解决行业应用难题
  • 2023年国赛 高教社杯数学建模思路 - 案例:异常检测
  • 【Electron】使用electron-builder打包时下载electron失败或慢的解决方案
  • stm32之16.外设定时器——TIM3
  • vue3自定义指令防止表单重复提交
  • 无涯教程-Perl - wait函数
  • DFMA是一种设计思想与方法论
  • 黑客自学路线
  • 怎么维护自己的电脑
  • ansible(2)-- ansible常用模块
  • 一文了解Gin对Cookie的支持z
  • android外卖点餐界面(期末作业)
  • ArcGIS API开发介绍
  • 大数据课程K5——Spark的框架核心概念
  • 【⑬MySQL | 数据类型(一)】简介 | 整数 | 浮点 | 定点类型
  • 5.6 汇编语言:汇编高效数组寻址
  • uniapp - 实现卡片式胶囊单选后右上角出现 “√“ 对勾对号选中效果功能,适用于小程序h5网页app全平台通用(一键复制组件源码,开箱即用!)
  • 使用Jetpack Compose构建可折叠Card
  • 安卓手机跑 vins slam (1)
  • 腾讯云-对象存储服务(COS)的使用总结
  • kafka复习:(3)自定义序列化器和反序列化器
  • Unity 图片资源的适配
  • 【Axure高保真原型】通过输入框动态控制折线图
  • 【Java】树结构数据的搜索
  • ElementUI中的日历组件加载无效的问题
  • Git版本管理(03)stash临时操作和.gitignore配置
  • 【ThingJS | 3D可视化】开发框架,一站式数字孪生
  • SpringBoot返回响应排除为 null 的字段
  • 华为数通方向HCIP-DataCom H12-821题库(单选题:41-60)
  • OpenAI推出GPT-3.5Turbo微调功能并更新API;Midjourney更新局部绘制功能