当前位置: 首页 > news >正文

pandas 笔记:get_dummies分类变量one-hot化

1 函数介绍

  • pandas.get_dummies 是 pandas 库中的一个函数,它用于将分类变量转换为哑变量/指示变量。
  • 所谓的哑变量,就是将分类变量的每一个不同的值转换为一个新的0/1变量。
  • 在输出的DataFrame中,每一列都以该值的名称命名
pandas.get_dummies(data, prefix=None,     prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

2 参数介绍

data你想要转换为哑变量的数据
prefix

用于在DataFrame列名前添加的字符串。

当对DataFrame调用 get_dummies 时,传递一个长度等于列数的列表

dummy_na布尔值,默认为 False。是否添加一列来指示 NaN 值,如果为 False 则忽略 NaN 值
columns

类列表,默认为 None。

在 DataFrame 中要编码的列名。

如果 columns 为 None,则所有具有 object、string 或 category 数据类型的列都将被转换

sparse

布尔值,默认为 False。

哑变量编码的列是否应该由 SparseArray(True)支持,还是由常规的 NumPy 数组(False)支持

drop_first布尔值,默认为 False。是否通过移除第一个级别,从 k 个分类级别中获取 k-1 个哑变量

3 举例

3.1 最基本的get_dummies

import pandas as pd
import numpy as nps=pd.Series(list('abca'))s
'''
0    a
1    b
2    c
3    a
dtype: object
'''pd.get_dummies(s)
'''a	b	c
0	1	0	0
1	0	1	0
2	0	0	1
3	1	0	0
'''

3.2 drop_first

此时第一个类就是 全0 向量对应的情况

pd.get_dummies(s,drop_first=True)
'''b	c
0	0	0
1	1	0
2	0	1
3	0	0
'''

3.3 dummy_na

是否为NaN单列一列

s1 = pd.Series(['a', 'b', np.nan])
s1
'''
0      a
1      b
2    NaN
dtype: object
'''pd.get_dummies(s1)
'''a	b
0	1	0
1	0	1
2	0	0
'''pd.get_dummies(s1,dummy_na=True)
'''a	b	NaN
0	1	0	0
1	0	1	0
2	0	0	1
'''

3.4 DataFrame 多列dummies

df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'],'C': [1, 2, 3]})
df
'''A	B	C
0	a	b	1
1	b	a	2
2	a	c	3
'''pd.get_dummies(df)
'''C	A_a	A_b	B_a	B_b	B_c
0	1	1	0	0	1	0
1	2	0	1	1	0	0
2	3	1	0	0	0	1
'''

3.5 prefix

df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'],'C': [1, 2, 3]})
df
'''A	B	C
0	a	b	1
1	b	a	2
2	a	c	3
'''pd.get_dummies(df,prefix=['col1','col2'])
'''C	col1_a	col1_b	col2_a	col2_b	col2_c
0	1	1	    0	    0	    1	    0
1	2	0	    1	    1	    0	    0
2	3	1	    0	    0	    0	    1
'''

http://www.lryc.cn/news/221763.html

相关文章:

  • PTE作文练习(一)
  • 如何做到一套FPGA工程无缝兼容两款不同的板卡?
  • VSCode修改主题为Eclipse 绿色护眼模式
  • conan和cmake编译器版本不匹配问题解决
  • float单精度浮点数如何在计算机中存储
  • 机器视觉在虚拟现实与增强现实中的作用
  • 红黑数原理及存在原因
  • Ansible入门—安装部署及各个模块应用案例(超详细)
  • Spring Boot 3系列之-启动类详解
  • muduo源码剖析之Timer定时器
  • CocosCreator:背景滚动 、背景循环滚动
  • 中远麒麟堡垒机SQL注入漏洞复现
  • ActiveMq学习⑨__基于zookeeper和LevelDB搭建ActiveMQ集群
  • Ansible概述以及模块
  • Cannot run program “D:\c\IntelliJ IDEA 2021.1.3\jbr\bin\java.exe“
  • 案例-注册页面(css)
  • Ansible--playbook 剧本
  • Vue3.0路由拦截
  • EtherCAT转EtherNET/IP协议网关控制EtherCAT伺服驱动器的方法
  • 钉钉内嵌H5遇到的一些问题
  • LeetCode 热题100——链表专题(二)
  • 【Rust日报】2023-11-06 ESP上使用 Rust实现 SNTP协议
  • LibreOJ - 2874 历史研究 (回滚莫队)
  • 人工智能-卷积神经网络之多输入多输出通道
  • Open3D(C++) Umeyama算法求两个点云的变换矩阵
  • 【C++】从入门到精通第二弹——类的构造与析构函数
  • C#8.0本质论第十一章--异常处理
  • FPGA高端项目:图像缩放+GTP+UDP架构,高速接口以太网视频传输,提供2套工程源码加QT上位机源码和技术支持
  • ansible安装和常见模块
  • 【Python基础】 Python设计模式之单例模式介绍