当前位置: 首页 > news >正文

数据出路 -----pandas

Pandas 是 Python 语言的一个扩展程序库,用于数据分析。

Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据)。

数据结构

Series 是一种类似于一维数组的对象,它由一组数据(各种 Numpy 数据类型)以及一组与之相关的数据标签(即索引)组成。

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

Pandas 应用

Pandas 在数据科学和数据分析领域中具有广泛的应用,其主要优势在于能够处理和分析结构化数据。

以下是 Pandas 的一些主要应用领域:

  • 数据清洗和预处理: Pandas被广泛用于清理和预处理数据,包括处理缺失值、异常值、重复值等。它提供了各种方法来使数据更适合进行进一步的分析。

  • 数据分析和统计: Pandas使数据分析变得更加简单,通过DataFrame和Series的灵活操作,用户可以轻松地进行统计分析、汇总、聚合等操作。从均值、中位数到标准差和相关性分析,Pandas都提供了丰富的功能。

  • 数据可视化: 将Pandas与Matplotlib、Seaborn等数据可视化库结合使用,可以创建各种图表和图形,从而更直观地理解数据分布和趋势。这对于数据科学家、分析师和决策者来说都是关键的。

  • 时间序列分析: Pandas在处理时间序列数据方面表现出色,支持对日期和时间进行高效操作。这对于金融领域、生产领域以及其他需要处理时间序列的行业尤为重要。

  • 机器学习和数据建模: 在机器学习中,数据预处理是非常关键的一步,而Pandas提供了强大的功能来处理和准备数据。它可以帮助用户将数据整理成适用于机器学习算法的格式。

  • 数据库操作: Pandas可以轻松地与数据库进行交互,从数据库中导入数据到DataFrame中,进行分析和处理,然后将结果导回数据库。这在数据库管理和分析中非常有用。

  • 实时数据分析: 对于需要实时监控和分析数据的应用,Pandas的高效性能使其成为一个强大的工具。结合其他实时数据处理工具,可以构建实时分析系统。

 Pandas 安装

pip install pandas

1.查看版本

import pandas as pd
pd.__version__  # 查看版本
1.1.5

Pandas数据结构-series

 Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。

Series 特点:

  • 索引: 每个 Series 都有一个索引,它可以是整数、字符串、日期等类型。如果没有显式指定索引,Pandas 会自动创建一个默认的整数索引。

  • 数据类型: Series 可以容纳不同数据类型的元素,包括整数、浮点数、字符串等。

              
pandas.Series( data,     数据   index,    数据索引,不指定,从0开始                dtype,    数据类型,默认会自己判断name,     设置名称。copy)     拷贝数据,默认为 False。

实例:

import pandas as pda = [1, 2, 3]myvar = pd.Series(a)print(myvar)

 Pandas-Series的一些方法

1.索引取值
import pandas as pda = [1, 2, 3]myvar = pd.Series(a)print(myvar[1])     #2
2.指定索引和按照索引取值
import pandas as pda = ["Google", "Runoob", "Wiki"]myvar = pd.Series(a, index = ["x", "y", "z"])print(myvar)    
print(myvar[y])    #Runoobx    Google
y    Runoob
z      Wiki
dtype: object
3.利用字典创建Series      --------key值为索引
import pandas as pds={0:"Google",1:"chorm"}
pd.Series(s)
4.字典中的一部分数据,只需要指定需要数据的索引即可
import pandas as pdsites = {1: "Google", 2: "Runoob", 3: "Wiki"}myvar = pd.Series(sites, index = [1, 2])print(myvar)

 基本操作:

import pandas as pds = {0: "Google", 1: "chorm", 2: "cjejiccnm", 3: "feofoemkfmm"}
ser = pd.Series(s)print(ser[2])    #cjejiccnm
print(ser[1:4])# 1          chorm
# 2      cjejiccnm
# 3    feofoemkfmm
# dtype: object# 索引和值的对应关系
for index, value in ser.items():print(f"Index: {index}, Value: {value}")
# Index: 0, Value: Google
# Index: 1, Value: chorm
# Index: 2, Value: cjejiccnm
# Index: 3, Value: feofoemkfmm
基本运算
import pandas as pds = {0: "Google", 1: "chorm", 2: "cjejiccnm", 3: "feofoemkfmm"}
ser = pd.Series(s)print(ser*2)# 0              GoogleGoogle
# 1                chormchorm
# 2        cjejiccnmcjejiccnm
# 3    feofoemkfmmfeofoemkfmm
# dtype: object# 过滤
filtered_series = ser[ser > 2]  # 选择大于2的元素
# 数学函数
import numpy as np
result = np.sqrt(ser)  # 对每个元素取平方根
属性和方法:
# 获取索引
index = series_with_index.index# 获取值数组
values = series_with_index.values# 获取描述统计信息
stats = series_with_index.describe()# 获取最大值和最小值的索引
max_index = series_with_index.idxmax()
min_index = series_with_index.idxmin()

注意事项:

  • Series 中的数据是有序的。
  • 可以将 Series 视为带有索引的一维数组。
  • 索引可以是唯一的,但不是必须的。
  • 数据可以是标量、列表、NumPy 数组等。
http://www.lryc.cn/news/323145.html

相关文章:

  • Win11右键菜单定制
  • 将深度图转成2D激光
  • rust学习笔记(8-12)
  • JetPack之DataBinding基础使用
  • 设计模式学习笔记 - 设计原则与思想总结:2.运用学过的设计原则和思想完善之前性能计数器项目
  • docker入门(八)—— dockerfile详细介绍,编写dockerfile
  • 机器学习复习(9)——自定义dataset
  • 【Redis】缓存穿透
  • 编程出现bug?怎么用Python打印异常
  • P1958 上学路线
  • Android14之HIDL报错:Invalid sparse file format at header magic(一百九十六)
  • 旭日x3派目标跟随小车
  • 金潮实业邀您参观2024长三角快递物流展览会
  • 【超细完整版】C# WebService 通过URL生成WSDL文件和DLL文件 【生成篇】
  • 申请公派访问学者难不难?
  • 关于汽车中网改装需要报备吗?(第二天)
  • 面试官:对于 Java 中多态的理解是什么?
  • JUC-1M/75±5°超小型密封温度继电器 体积小、重量轻、控温精度高 JOSEF约瑟
  • filebeat 配置
  • Qt教程 — 3.5 深入了解Qt 控件:Display Widgets部件(1)
  • 网络安全框架和云安全参考架构介绍
  • 360企业安全浏览器兼容模式显示异常某个内容不显示 偶发现象 本地无法复现情况js
  • JVM常见启动参数
  • 单元测试、集成测试、系统测试区别
  • NIVision-相机图像采集
  • 【vue-小知识】var、let 和 const之间的区别
  • 24.3 分布式综合应用
  • Android学习进阶
  • “低代码+平台”:驱动企业数字化转型与创新的新引擎
  • python代码截取任意页的pdf