当前位置: 首页 > news >正文

数据整理操作及众所周知【数据分析】

各位大佬好 ,这里是阿川的博客,祝您变得更强

在这里插入图片描述 个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力在这里插入图片描述

阿川水平有限,如有错误,欢迎大佬指正在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Python 初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
数据清洗前 基本技能
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
数据整理前 必看
数据分析—三前奏:获取/ 读取/ 评估数据
数据分析—数据清洗操作及众所周知

这是目录

  • <font color= f28e16 size=5>合并拼接数据
  • <font color= f28e16 size=5>分组数据
  • <font color= f28e16 size=5>众所周知

合并拼接数据

多个DataFrame的数据进行合并或者拼接

  • concat不同的DataFrame进行拼接
    • ignore_index=True 参数忽视原本DataFrame的索引
    • axis 参数可以指定纵向和横向合并

请添加图片描述

请添加图片描述

  • merge 根据不同的DataFrame相同列进行合并
    • on参数锁定条件列进行合并

请添加图片描述

  • left-on 左边指定列
  • right-on 右边指定列

请添加图片描述

  • suffixes参数修改列名后缀

请添加图片描述

  • how 该参数 决定以什么样的方式合并

  • join 根据索引合并

    • lsuffix 修改左边后缀
    • rsuffix 修改右边后缀

请添加图片描述

  • how参数决定什么样方式合并
    • inner(默认方式) 保留左右表都有匹配的值

请添加图片描述

  • outer 保留左右表的所有值,若有匹配不上的,则用NaN填充

请添加图片描述

  • left 保留 左边的值,用右边的值去匹配,若匹配不上则填充NaN

请添加图片描述

  • right 保留 右边的值,用左边的值去匹配,若匹配不上则填充NaN

请添加图片描述

分组数据

DataFrame数据进行分组

  • groupby 根据选择条件进行分组,且应该提取相应的变量,做相应聚合操作

生成一个实例,但看不到究竟长什么样
因为实例中一个单元格里多个数据情况,并不是有效表格,数据要提取到具体的,再用聚合函数
多个数据 聚合成单个数据,从而符合一个单元格中一个数据规则

请添加图片描述

众所周知

聚合函数是可将多个Series变成单个数据的函数

常见的有
count 得到元素的数量
first 得到第一个元素
last 得到最后一个元素
mean默认的聚合方式) 得到所有元素平均值
median 得到所有元素中位数
min 得到所有元素的最小值
max 得到所有元素的最大值
std 得到所有元素的标准差
var 得到所有元素的方差
prod 得到所有元素的积
sum 得到所有元素的和

  • cut 根据范围进行精细分组
    • [ ] 分箱标准
      • 想要分组范围进行划分
    • labels参数切片空间进行命名

请添加图片描述

  • query 条件筛选

请添加图片描述

  • pivot_table 透视表,基于原始数据对表进行重塑
    • index参数可以指定索引
    • columns参数可以指定列名
    • values参数可以指定值
    • aggfunc参数 指定聚合方式

请添加图片描述

  • .loc.loc 层次化索引,可以针对处理多个索引的pivot_table透视表
  • reset_index 重置索引

请添加图片描述

好的,到此为止啦,祝您变得更强

在这里插入图片描述
想说的话

实不相瞒,写的每篇博客都要写五六个小时(加上自己学习和纸质笔记,共八九小时吧),很累希望大佬支持

在这里插入图片描述

道阻且长 行则将至
个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述
http://www.lryc.cn/news/366796.html

相关文章:

  • maven的install不报错但deploy到nexus报400错误
  • WebSocket前端分页:技术深度、实践困境与未来展望
  • 基于jeecgboot-vue3的Flowable流程-待办任务(一)
  • 计算机网络--传输层
  • 【Vue】普通组件的注册使用-局部注册
  • 搞编程学习时是如何查找资料的?
  • 2024年AI大模型训练数据白皮书作用
  • Highcharts 条形图:数据可视化利器
  • 算法——二分查找
  • 统计信号处理基础 习题解答10-8
  • Flutter打包网络问题解决办法
  • 【ARM Cache 及 MMU 系列文章 6.3 -- ARMv8/v9 Cache Tag数据读取及分析】
  • Lua移植到标准ANSI C环境
  • crossover软件安装程序怎么安装 Crossover for Mac切换Windows系统 crossover软件怎么样
  • 【2024高考作文】新课标I卷-人工智能主题,用chatGPT作答
  • 【计算机网络】P2 计算机网络体系结构基本概念,涉及分层的基本术语、SDU、PCI 与 PDU 的概念以及层次结构的含义
  • 主流物联网协议客户端开源库介绍(mqtt,coap,websocket,httphttps,tcp及udp)
  • 【Python】成功解决SyntaxError: invalid syntax
  • 源代码防泄密
  • Unity DOTS技术(十三) ComponentSystem及JobComponentSystem
  • Apifox的使用
  • 【SpringBoot】SpringBoot整合RabbitMQ消息中间件,实现延迟队列和死信队列
  • kafka消息积压处理方案
  • 【vscode-快捷键 一键JSON格式化】
  • 什么是 Spring Boot 的起步依赖和自动配置?它们的作用是什么?
  • rk3568 norflash+pcei nvme 配置
  • 【Vue】面经基础版-首页请求渲染
  • OBS+nginx+nginx-http-flv-module实现阿里云的推流和拉流
  • ch1计算机网络和因特网
  • Web前端安全测试:深入剖析与实战策略