当前位置: 首页 > news >正文

机器学习之IV编码,分箱WOE编码

IV的概念与作用

全称是Information Value,中文的意思是信息价值,或者信息量

作用:

1、构建分类模型时,经常需要对特征进行筛选。
2、挑选特征的过程考虑的因素比较多,最主要和最直接的衡量标准是特征的预测能力,而IV就是用来衡量自变量(也就是特征)的预测能力
IV需要用到WOE,而WOE是建立在分箱之上的

分箱:

数据分箱:是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“分箱”的方法。也就是将连续特征变成离散化特征。
分箱需要用到cut或者qcut
cut是等距分箱,为qcut是等频分箱

使用如下:

import numpy as np
import pandas as pd
# 得到哟组连续型变量
ages = np.linspace(1, 59, num=50)
print(ages.shape)
# 使用分箱对连续型变量进行离散化,bins表示的分组的个数
ages_cut = pd.cut(ages, bins=10, labels=['A','B','C','D','E','F','G','H','I','J'])
# 输出分箱后的结果
print(ages_cut)
print(ages_cut.value_counts())
# 等频分箱
ages_qcut = pd.qcut(ages, q=10)#q表示的箱子的个数
# 等频分箱的结果
print(ages_qcut)
print(ages_qcut.value_counts())

输出结果:

(50,)
['A', 'A', 'A', 'A', 'A', ..., 'J', 'J', 'J', 'J', 'J']
Length: 50
Categories (10, object): ['A' < 'B' < 'C' < 'D' ... 'G' < 'H' < 'I' < 'J']
A    5
B    5
C    5
D    5
E    5
F    5
G    5
H    5
I    5
J    5
dtype: int64
[(0.999, 6.8], (0.999, 6.8], (0.999, 6.8], (0.999, 6.8], (0.999, 6.8], ..., (53.2, 59.0], (53.2, 59.0], (53.2, 59.0], (53.2, 59.0], (53.2, 59.0]]
Length: 50
Categories (10, interval[float64, right]): [(0.999, 6.8] < (6.8, 12.6] < (12.6, 18.4] <(18.4, 24.2] ... (35.8, 41.6] < (41.6, 47.4] <(47.4, 53.2] < (53.2, 59.0]]
(0.999, 6.8]    5
(6.8, 12.6]     5
(12.6, 18.4]    5
(18.4, 24.2]    5
(24.2, 30.0]    5
(30.0, 35.8]    5
(35.8, 41.6]    5
(41.6, 47.4]    5
(47.4, 53.2]    5
(53.2, 59.0]    5
dtype: int64

什么是WOE?

WOE全称Weight of Evidence,也就是证据权重的意思,WOE是对原始特征的一种编码形式。要对一个特征进行WOE编码,需要首先吧这个变量进行分组处理(也叫离散化,分箱等等。),分组后,

WOE计算公式

http://www.lryc.cn/news/210453.html

相关文章:

  • 区块链技术与应用 【全国职业院校技能大赛国赛题目解析】第六套区块链系统部署与运维
  • 山西电力市场日前价格预测【2023-10-30】
  • win10虚拟机安装教程
  • 2011-2021年“第四期”数字普惠金融与上市公司匹配(根据城市匹配)/上市公司数字普惠金融指数匹配数据
  • CSP-J 2023 T3 一元二次方程 解题报告
  • 中颖单片机SH367309全套量产PCM,专用动力电池保护板开发资料
  • Android数据对象序列化原理与应用
  • Linux cp命令:复制文件和目录
  • SpringBoot 接收不到 post 请求数据与接收 post 请求数据
  • vue3学习(十四)--- vue3中css新特性
  • Python爬虫基础之Requests详解
  • C++求根节点到叶子节点数字之和
  • C++搜索二叉树
  • 软件工程17-18期末试卷
  • 课题学习(九)----阅读《导向钻井工具姿态动态测量的自适应滤波方法》论文笔记
  • 阿里云服务器—ECS快速入门
  • Hive简介及核心概念
  • CrossOver 23.6.0 虚拟机新功能介绍
  • (免费领源码)Java#Springboot#mysql农产品销售管理系统47627-计算机毕业设计项目选题推荐
  • centos更改yum源
  • React-快速搭建开发环境
  • 算法随想录算法训练营第四十六天| 583. 两个字符串的删除操作 72. 编辑距离
  • vue源码分析(五)——vue render 函数的使用
  • Maven第三章:IDEA集成与常见问题
  • 数据结构—线性实习题目(二)5迷宫问题(栈)
  • Nginx 的配置文件(负载均衡,反向代理)
  • 项目管理49个过程定义与作用、五大过程组
  • MySQL篇---第六篇
  • QA新人入职任务
  • 更新电脑显卡驱动的操作方法有哪些?