当前位置: 首页 > news >正文

python数据分析——pandas DataFrame基础知识2

参考资料:活用pandas库

1、分组方式

        我们可以把分组计算看作“分割-应用-组合”(split-apply-combine)的过程。首先把数据分割成若干部分,然后把选择的函数(或计算)应用于各部分,最后把所有独立的分割计算组合成一个DataFrame。在pandas中可以使用DataFrame的groupby方法完成分组/聚合计算。

# 导入库
import pandas as pd
# 默认情况下,read_csv函数会读取逗号分隔文件
# Gapminder数据使用制表符分隔
# 可以吧sep参数设置为\t,显示指明使用制表符分隔
df=pd.read_csv(r"...\data\gapminder.tsv",sep="\t")
# 调用head()方法,默认显示前5行
print(df.head())
# 数据中买年的平均与其寿命是多少?
# 为了回答这个问题,需要先对数据按照年份进行分割,
# 然后获取lifeExp列,计算平均值
group_year_df=df.groupby("year")
print(type(group_year_df))
group_year_df_lifeExp=group_year_df["lifeExp"]
print(type(group_year_df_lifeExp))
print(group_year_df_lifeExp.mean())

        如果想使用多个变量对数据进行分组和分层,或想对多列执行相同的计算,我们可以使用列表来实现。如下:针对每个“年份-洲”对,计算响应的平均预期寿命和平均GDP。

# 在python中,可以使用反斜杠把一个长行分割为多行
# 下面两个语句是相同的
# 语句1
df.groupby(["year","continent"])[['lifeExp','gdpPercap']].mean()
# 语句2
df.groupby(["year","continent"])\
[['lifeExp','gdpPercap']].\
mean()

        如果想平铺DataFrame,可以使用reset_index方法。

multi_group_var=df.groupby(["year","continent"])[['lifeExp','gdpPercap']].mean()
flat=multi_group_var.reset_index()
print(flat.head(15))

2、分组频率计数

        我们可以使用nunique方法或value_counts方法来获取唯一值计数和频率计数。

# 使用nunique()方法计算Series中唯一值的数目(去重统计)
print(df.groupby("continent")["country"].nunique())
# 使用value_counts()方法计算Series中的频率
print(df.groupby("continent")["country"].value_counts())

3、基本绘图

        可视化在数据处理的每个步骤都很重要。在理解或清理数据时,可视化有助于识别数据中的趋势,并展示最终的发现。

# 查看世界人口各年度的预期寿命
global_yearly_life_exp=df.groupby("year")["lifeExp"].mean()
print(global_yearly_life_exp)
global_yearly_life_exp.plot()

http://www.lryc.cn/news/344859.html

相关文章:

  • TODESK远程开机的原理
  • 【c1】数据类型,运算符/循环,数组/指针,结构体,main参数,static/extern,typedef
  • word图片水印
  • kali安装及替换源
  • JSpdf,前端下载大量表格数据pdf文件,不创建dom
  • PHP关联数组[区别,组成,取值,遍历,函数]
  • JavaWeb--13Mybatis(2)
  • 如何远程控制另一部手机:远程控制使用方法
  • x64dbg中类似于*.exe+地址偏移
  • ICode国际青少年编程竞赛- Python-1级训练场-基础训练1
  • Baidu Comate智能编码助手
  • nginx自动部署-跨操作系统
  • 组合模式(结构型)
  • Pspice for TI学习
  • LoRA的原理简介
  • 安卓使用Fiddler抓包 2024
  • 【前端每日基础】day2 const var const的区别
  • 乡村振兴的文化旅游融合:整合乡村文化资源与旅游资源,发展文化旅游产业,提升美丽乡村的文化内涵和旅游吸引力
  • 力扣题目101:对称二叉树
  • struct和union大小计算规则
  • 数据库课程设计《基于Spring Boot + MyBatis + MySQL 实现Java医院药品管理系统》+源代码
  • 【每日力扣】98. 验证二叉搜索树 与 108. 将有序数组转换为二叉搜索树
  • Django3 个人开发笔记
  • 【全开源】Java U U跑腿同城跑腿小程序源码快递代取帮买帮送源码小程序+H 5+公众号跑腿系统
  • 物联网实战--平台篇之(五)账户界面
  • 9. Django Admin后台系统
  • ELK+kafka日志采集
  • 【C++ list所有函数举例如何使用】
  • HTML5(1)
  • 【LAMMPS学习】八、基础知识(6.2)LAMMPS GitHub 教程