当前位置: 首页 > news >正文

Pandas 进阶 —— 数据转换、聚合与可视化

引言

在数据分析的旅程中,Pandas 库提供了从数据转换到聚合再到可视化的全面解决方案。上篇我们掌握了数据的导入和清洗,本篇我们将探索如何通过 Pandas 对数据进行更高级的处理,包括数据转换、聚合分析以及可视化展示。

数据转换

数据转换是数据分析中的重要环节,它涉及到数据结构的调整和变换,以适应不同的分析需求。

  • 数据重塑:通过 melt(), pivot(), pivot_table() 函数,我们可以将数据从宽格式转换为长格式,或者重新排列数据的行列,以便于分析。
  • 数据类型转换:使用 astype() 函数可以转换数据的类型,例如将字符串转换为数值类型,以便进行数值计算。
  • 数据排序sort_values() 函数可以用来根据某个或某些列的值进行排序,这对于数据的直观理解和后续分析至关重要。

代码示例:

# 将宽格式数据转换为长格式
df_long = df.melt(id_vars=['Name', 'Age'], value_vars=['Gender', 'Salary'], var_name='Attribute', value_name='Value')
print(df_long)# 转换数据类型
df['Age'] = df['Age'].astype(int)# 根据薪资进行排序
df_sorted = df.sort_values(by='Salary', ascending=False)
数据聚合

数据聚合是通过某种方式将数据汇总起来,以得出有意义的统计信息。

  • 分组和聚合groupby() 函数结合 agg() 可以对数据进行分组,并应用多种聚合函数,如求和、平均、最大值等。
  • 窗口函数rolling()expanding() 函数用于执行移动窗口计算,这在时间序列分析中尤其有用。

代码示例:

# 按性别分组并计算平均薪资
gender_salary_avg = df.groupby('Gender')['Salary'].mean()
print(gender_salary_avg)# 使用窗口函数计算薪资的移动平均值
salary_rolling_mean = df['Salary'].rolling(window=3).mean()
时间序列分析

时间序列分析是数据分析中的一个重要领域,特别是在处理具有时间戳的数据时。

  • 解析日期时间to_datetime() 函数用于将字符串转换为日期时间格式,这是进行时间序列分析的第一步。
  • 时间索引:使用 set_index() 可以将日期时间设置为 DataFrame 的索引,从而方便进行时间序列的切片和重采样。
  • 重采样resample() 函数用于更改时间序列的频率,进行上采样或下采样。

代码示例:

# 解析日期时间并设置为索引
df['Date'] = pd.to_datetime(df['Date'])
df.set_index('Date', inplace=True)# 按月重采样并计算平均薪资
monthly_avg_salary = df.resample('M').mean()['Salary']
数据可视化

数据可视化是数据分析的直观展示,Pandas 与 Matplotlib 等绘图库的结合使用,可以创建各种图表。

  • 基本绘图:使用 plot() 函数可以快速绘制折线图、柱状图、饼图等。
  • 高级图表:包括直方图、箱线图、散点图等,这些图表可以帮助我们发现数据的分布、异常值和相关性。

代码示例:

import matplotlib.pyplot as plt# 绘制薪资的直方图
df['Salary'].plot(kind='hist')
plt.title('Salary Distribution')
plt.xlabel('Salary')
plt.ylabel('Frequency')
plt.show()# 绘制薪资和年龄的散点图
df.plot(kind='scatter', x='Age', y='Salary')
plt.title('Salary vs Age')
plt.xlabel('Age')
plt.ylabel('Salary')
plt.show()
结语

通过本文的学习,我们不仅掌握了 Pandas 的数据转换、聚合和可视化技巧,而且通过具体的代码示例,能够将这些理论知识应用到实际的数据分析工作中。数据的探索和分析是一个不断深入的过程,Pandas 提供了强大的工具来帮助我们从不同角度理解和解释数据。希望你能将这些技能运用到自己的项目中,不断探索和发现数据的潜在价值。

http://www.lryc.cn/news/393705.html

相关文章:

  • 华为OD机试 - 来自异国的客人(Java 2024 D卷 100分)
  • 期末上分站——计组(3)
  • IDA*——AcWing 180. 排书
  • 【云计算】公有云、私有云、混合云、社区云、多云
  • MySQL中的MVCC解析
  • 【2024最新华为OD-C/D卷试题汇总】[支持在线评测] LYA的生日聚会(100分) - 三语言AC题解(Python/Java/Cpp)
  • 初识STM32:芯片基本信息
  • Zabbix 配置PING监控
  • 异常解决(三)-- Wandb fails with ServiceStartProcessError
  • Qt调用Matlab(一)
  • 网络爬虫(二) 哔哩哔哩热榜高频词按照图片形状排列
  • MySQL 常见错误及解决方案
  • STM32 - 内存分区与OTA
  • RAG理论:ES混合搜索BM25+kNN(cosine)以及归一化
  • 分享大厂对于缓存操作的封装
  • 冯诺依曼体系结构与操作系统(Linux)
  • 开源六轴协作机械臂myCobot280实现交互式乘法!让学习充满乐趣
  • [C++][CMake][嵌套的CMake]详细讲解
  • 尚品汇-(十三)
  • python小练习04
  • 小试牛刀-Solana合约账户详解
  • Spring Boot+Vue项目从零入手
  • Vue+Xterm.js+WebSocket+JSch实现Web Shell终端
  • 用 adb 来模拟手机插上电源和拔掉电源的情形
  • 【SPIE独立出版】第四届智能交通系统与智慧城市国际学术会议(ITSSC 2024)
  • 【Unity数据交互】如何Unity中读取Ecxel中的数据
  • 基于深度学习LightWeight的人体姿态检测跌倒系统源码
  • SpringBoot 生产实践:没有父 starter 的打包问题
  • IDEA配Git
  • 51单片机STC89C52RC——14.1 直流电机调速