当前位置: 首页 > news >正文

Python pandas常见函数

Pandas库

      • 基本概念
      • 读取数据
      • 数据处理
      • 数据输出
      • 其他常用功能

pip install pandas

基本概念

  1. 数据结构

    • Series: 一维数据结构

      import pandas as pd
      data = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
      print(data)
      
    • DataFrame: 二维数据结构

      data = {'Name': ['Alice', 'Bob', 'Charlie'],'Age': [25, 30, 35]
      }
      df = pd.DataFrame(data)
      print(df)
      

读取数据

  1. 从 CSV 文件读取数据

    df = pd.read_csv('file.csv')
    print(df.head())
    
  2. 从 Excel 文件读取数据

    df = pd.read_excel('file.xlsx', sheet_name='Sheet1')
    print(df.head())
    
  3. 从 SQL 查询读取数据

    import sqlite3
    conn = sqlite3.connect('database.db')
    df = pd.read_sql_query('SELECT * FROM table', conn)
    print(df.head())
    

数据处理

  1. 查看数据

    • 查看前 5 行

      print(df.head())
      
    • 查看后 5 行

      print(df.tail())
      
    • 查看数据的简要信息

      print(df.info())
      
    • 查看数据的统计摘要

      print(df.describe())
      
  2. 选择和过滤数据

    • 按列选择

      print(df['Name'])
      
    • 按行选择

      print(df.loc[0])  # 按标签
      print(df.iloc[0])  # 按位置
      
    • 条件过滤

      filtered_df = df[df['Age'] > 30]
      print(filtered_df)
      
  3. 数据清洗

    • 处理缺失值

      df = df.dropna()  # 删除含缺失值的行
      df = df.fillna(0)  # 将缺失值填充为 0
      
    • 去重

      df = df.drop_duplicates()
      
    • 数据类型转换

      df['Age'] = df['Age'].astype(float)
      
  4. 数据操作

    • 添加列

      df['Country'] = 'USA'
      
    • 删除列

      df = df.drop('Country', axis=1)
      
    • 重命名列

      df = df.rename(columns={'Name': 'Full Name'})
      
  5. 数据聚合

    • 按组聚合

      grouped_df = df.groupby('Country').agg({'Age': 'mean'})
      print(grouped_df)
      
    • 合并数据

      df1 = pd.DataFrame({'ID': [1, 2], 'Value': ['A', 'B']})
      df2 = pd.DataFrame({'ID': [1, 2], 'Score': [85, 90]})
      merged_df = pd.merge(df1, df2, on='ID')
      print(merged_df)
      
    • 拼接数据

      df1 = pd.DataFrame({'Name': ['Alice', 'Bob']})
      df2 = pd.DataFrame({'Name': ['Charlie', 'David']})
      concatenated_df = pd.concat([df1, df2], ignore_index=True)
      print(concatenated_df)
      
  6. 数据排序

    • 按列排序

      sorted_df = df.sort_values(by='Age')
      print(sorted_df)
      
    • 排序方向

      sorted_df = df.sort_values(by='Age', ascending=False)
      print(sorted_df)
      

数据输出

  1. 保存为 CSV 文件

    df.to_csv('output.csv', index=False)
    
  2. 保存为 Excel 文件

    df.to_excel('output.xlsx', index=False)
    

其他常用功能

  1. 透视表

    pivot_table = pd.pivot_table(df, values='Age', index='Country', aggfunc='mean')
    print(pivot_table)
    
  2. 时间序列

    • 日期时间转换

      df['Date'] = pd.to_datetime(df['Date'])
      
    • 设置时间索引

      df = df.set_index('Date')
      
http://www.lryc.cn/news/419735.html

相关文章:

  • 行业落地分享:阿里云搜索RAG应用实践
  • 【SQL】温度比较
  • Istio 项目会往用户的 Pod 里注入 Envoy 容器,用来代理 Pod 的进出流量,这是什么设计模式?
  • (24)(24.1) FPV和仿真的机载OSD(三)
  • 测试开发岗面试总结
  • 编程-设计模式 7:桥接模式
  • C语言----结构体
  • 基于HKELM混合核极限学习机多输出回归预测 (多输入多输出) Matlab代码
  • 经纬恒润荣获小米汽车优秀质量奖!
  • Linux 软件编程学习第十一天
  • hive udtf 函数:输入一个字符串,将这个字符串按照特殊的逻辑处理之后,输出4个字段
  • 【实现100个unity特效之16】unity2022之前或者之后版本实现全屏shader graph的不同方式 —— 适用于人物受伤红屏或者一些其他状态效果
  • 比特币使用ord蚀刻符文---简单笔记
  • 大数据-74 Kafka 高级特性 稳定性 - 控制器、可靠性 副本复制、失效副本、副本滞后 多图一篇详解
  • c# 什么是扩展方法
  • 全屏组件封装(react18+antd)
  • wordpress全局自适应网址导航整站打包源码,含主题和数据库
  • PyTorch深度学习框架
  • Python和AI库NumPy(二):数组创建与操作
  • GD32 SPI驱动代码
  • Qgis 开发初级 《数据库和图层》
  • 三大机器学习框架对比:TensorFlow、PyTorch与Scikit-Learn
  • Apache OFBiz 曝出严重漏洞,允许预身份验证 RCE
  • SpringCloud 微服务nacos和eureka
  • Java学习篇(一)| 如何生成分布式全局唯一ID
  • c++ 弹窗办法
  • 小程序使用this.animate实现3维动画切换
  • 【区块链+社会公益】第一反应互助急救链 | FISCO BCOS应用案例
  • leetcode 136. 只出现一次的数字
  • 可扩展架构设计:策略与最佳实践