当前位置: 首页 > news >正文

Series数据去重

目录

 准备数据

Series数据去重

DataFrame数据和Series数据去重对比


pandas中,Series.drop_duplicates(keep=, inplace=)方法用于删除Series对象中的重复值。

  1. keep

    1. 决定保留哪些重复值。可以取以下三个值之一:

      • 'first'(默认值):保留第一次出现的重复值。

      • 'last':保留最后一次出现的重复值。

      • False:删除所有重复值。

  2. inplace

    1. 这是一个布尔值参数。如果为True,则直接在原始Series上进行修改,不会返回新的Series。如果为False(默认值),则会返回一个新的Series,原始的Series保持不变。

 准备数据

import pandas as pd
df = pd.read_csv("../data/b_LJdata.csv")
df.head()

Series数据去重

1) 对 朝向 构成的 Series对象 去重, 保留第一条, 不影响原始对象

# 1 对 朝向 构成的 Series对象 去重, 保留第一条, 不影响原始对象
# 1.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)# 1.2 去重
new_series = chaoxiang_series.drop_duplicates(keep='first', inplace=False)
print('==================')
print(new_series)
print('==================')print('------------ 去重后 ----------------')
print(chaoxiang_series)

2) 对 朝向 构成的 Series对象 去重, 保留最后一条, 不影响原始对象

# 2 对 朝向 构成的 Series对象 去重, 保留最后一条, 不影响原始对象
# 2.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)# 2.2 去重
new_series = chaoxiang_series.drop_duplicates(keep='last', inplace=False)
print('==================')
print(new_series)
print('==================')print('------------ 去重后 ----------------')
print(chaoxiang_series)

3) 对 朝向 构成的 Series对象 去重, 删除所有重复, 不影响原始对象

# 3 对 朝向 构成的 Series对象 去重, 删除所有重复, 不影响原始对象
# 3.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)# 3.2 去重
new_series = chaoxiang_series.drop_duplicates(keep=False, inplace=False)
print('==================')
print(new_series)
print('==================')print('------------ 去重后 ----------------')
print(chaoxiang_series)

4) 对 朝向 构成的 Series对象 去重, 保留第一条, 影响原始对象

# 4 对 朝向 构成的 Series对象 去重, 保留第一条, 影响原始对象
# 4.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)# 4.2 去重
new_series = chaoxiang_series.drop_duplicates(keep='first', inplace=True)
print('==================')
print(new_series)
print('==================')print('------------ 去重后 ----------------')
print(chaoxiang_series)

5) 对 朝向 构成的 Series对象 去重, 保留最后一条, 影响原始对象


# 5 对 朝向 构成的 Series对象 去重, 保留最后一条, 影响原始对象
# 5.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)# 5.2 去重
new_series = chaoxiang_series.drop_duplicates(keep='last', inplace=True)
print('==================')
print(new_series)
print('==================')print('------------ 去重后 ----------------')
print(chaoxiang_series)

6) 对 朝向 构成的 Series对象 去重, 删除所有重复, 影响原始对象

# 6 对 朝向 构成的 Series对象 去重, 删除所有重复, 影响原始对象
# 6.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)# 6.2 去重
new_series = chaoxiang_series.drop_duplicates(keep=False, inplace=True)
print('==================')
print(new_series)
print('==================')print('------------ 去重后 ----------------')
print(chaoxiang_series)

7) 简化

# 7 简化
# 7.1 准备数据
chaoxiang_series = df.head()['朝向']
print('------------ 去重前 ----------------')
print(chaoxiang_series)# 7.2 去重
new_series = chaoxiang_series.drop_duplicates()
print('==================')
print(new_series)
print('==================')print('------------ 去重后 ----------------')
print(chaoxiang_series)

 DataFrame数据和Series数据去重对比

 DataFrame数据去重,最终呈现的是数据集合

temp_df = df.head().copy()# 对df所有列去重, 当前df没有重复的行数据
print(temp_df.drop_duplicates())
print("=================================")
# 根据指定列对df去重, 默认保留第一条数据
# 第1行和第5行、第2行和第3行重复
print(temp_df.drop_duplicates(subset=['户型', '朝向']))

Series数据去重,最终呈现是一列数据

temp_df = df.head().copy()# 默认保留第一条数据
print(temp_df.drop_duplicates())
print("===========================")
print(temp_df[['户型','朝向']].drop_duplicates())

http://www.lryc.cn/news/460340.html

相关文章:

  • Python语言核心12个必知语法细节
  • 解决ImageIO无法读取部分JPEG格式图片问题
  • 使用three.js 实现蜡烛效果
  • 手动在Linux服务器上部署并运行SpringBoot项目(新手向)
  • 自媒体短视频如何制作?
  • 2024年河南省职业技能竞赛(网络建设与运维赛项)
  • git--git reset
  • Spring Boot的实用内置功能详解
  • 撸猫变梳毛?怎么解决猫咪掉毛问题?好用的宠物空气净化器推荐
  • 人声分离免费软件,六款好用软件处理音乐更轻松!
  • 数据分析Power BI设置万为单位的数据
  • (AI 生成) 新时代游击方式: 利用 “灵活就业“ 红利
  • Unity UndoRedo(撤销重做)功能
  • 28条有关人工智能的名言
  • 搞机器视觉项目看不起搞机器视觉培训的,实际上怎么样
  • 使用Jenkins部署项目
  • 【机器学习与神经网络荣获诺贝尔奖】科学边界的扩展及技术革新
  • Javascript扩展符号(...)使用说明
  • giugughk
  • 【微服务】网关 - Gateway(下)(day8)
  • 【C#】创建一个控制台应用程序来管理学生成绩
  • 鸿蒙开发之ArkUI 界面篇 三十四 容器组件Tabs 自定义TabBar
  • AI核身-金融场景凭证篡改检测YOLO原理
  • 鹅厂JS面试题——0.1+0.2=0.3吗?
  • 软件功能测试重点和流程有哪些?专业软件测评服务公司推荐
  • 【数据结构】AVL树(C++实现)
  • AMD新推EPYC与MI325X,挑战英伟达AI市场地位
  • 电脑桌面文件不见了怎么恢复?8个方法帮你解决问题
  • 如果想转行AI领域却不知如何开始?可以试试这五步,超详细_ai行业怎么入行
  • 个人博客搭建 | Hexo框架