当前位置: 首页 > news >正文

pandas速学-DataFrame

一、理解DataFrame

他是一个表格结构:DataFrame 是一个表格型的数据结构

他是有序的,不同值类型:它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。

他可以被看做一个由series组成的字典:DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

他对应二维数组:

Pandas DataFrame 是一个二维的数组结构,类似二维数组。

二、参数理解

pandas.DataFrame( data, index, columns, dtype, copy)
'''
data:一组数据(ndarray、series, map, lists, dict 等类型)。index:索引值,或者可以称为行标签。columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。dtype:数据类型。copy:拷贝数据,默认为 False。'''

三、对象创建方式:

使用列表创建DataFram:

import pandas as pddata = [['Google',10],['Runoob',12],['Wiki',13]]df = pd.DataFrame(data,columns=['Site','Age'],dtype=float)print(df)

通过官场以上代码我们可以发现:

1、二维数组最内层是一行的数据

2、列名在使用DataFrame()函数时,通过columns参数进行了指定,参数形式为列表。其中dtype还指定了float类型。

运行结果如下:

在创建时并没有指定index,所以索引是从0开始的。

使用ndarrys创建DataFram:

import pandas as pddata = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}df = pd.DataFrame(data)print (df)

这里ndarrys是numpy里的,暂理解为多维数组。

这里的多维数组为字典的value是一个列表。

从代码来看,这种多维数组是DataFrame()函数的标准入参之一,此时多维数组,或者说字典的keys,就是列名,每个子序列对应一个列的数据。

运行如下:

以下为一个多个字典构成的列表数据生成DataFrame的案例:

这里的字典是作为列表的一个元素

import pandas as pddata = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]df = pd.DataFrame(data)print (df)

从上述可知,这种结构数据在生成DataFrame时,列表内部字典的keys会成为表格的列,多个字典代表多行数据。

运行如下:

   a   b     c
0  1   2   NaN
1  5  10  20.0

pandas可以使用 loc 属性返回指定行的数据,如果没有设置索引,第一行索引为 0,第二行索引为 1,以此类推:

import pandas as pddata = {"calories": [420, 380, 390],"duration": [50, 40, 45]
}# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)# 返回第一行
print(df.loc[0])
# 返回第二行
print(df.loc[1])

需要注意的是,这里loc[索引]是返回的行数据。

返回指定多行时,可以使用df.loc[0,1],形如此类。

DataFrame生成时也可以指定索引值,以下是个小案例:

import pandas as pddata = {"calories": [420, 380, 390],"duration": [50, 40, 45]
}df = pd.DataFrame(data, index = ["day1", "day2", "day3"])print(df)

对这种指定了索引的DataFrame我们依然可以使用loc[索引名]来获取其值。

如下:

import pandas as pddata = {"calories": [420, 380, 390],"duration": [50, 40, 45]
}df = pd.DataFrame(data, index = ["day1", "day2", "day3"])# 指定索引
print(df.loc["day2"])
运行如下:
calories    380
duration     40
Name: day2, dtype: int64

http://www.lryc.cn/news/92022.html

相关文章:

  • 在任务与执行策略之间的隐性耦合
  • Spring Cloud Alibaba Nacos 构建配置中心
  • 华为OD机试真题 Java 实现【猴子爬山】【2023 B卷 100分】,附详细解题思路
  • 【19JavaScript for 循环】JavaScript for 循环:掌握重复执行的关键
  • MySQL学习(联结,组合查询,全文本搜索)
  • Nautilus Chain:独特且纯粹的创新型 Layer3
  • 十六、立方体贴图(天空盒)
  • UniAD:实现多类别异常检测的统一模型
  • Java 面试 | tcp ip http https(2023版)
  • 全志V3S嵌入式驱动开发(音频输出和音频录制)
  • 使用RP2040自制的树莓派pico—— [2/100] HelloWorld! 和 点亮LED
  • 康耐视In-Sight2800相机的使用
  • 驱动开发:内核封装WFP防火墙入门
  • python+vue校园快递代取系统的设计与实现3i0v9
  • C 语言详细教程
  • 函数重载与缺省参数
  • 线程引入的开销
  • 学生成绩管理系统
  • 什么是关系模型? 关系模型的基本概念
  • shell编程-02-变量作用域
  • C++服务器框架开发6——日志系统LogFormatter/size_t学习
  • MYSQL实战45讲笔记--深入浅出索引
  • SpringCloudAlibaba:分布式事务之Seata学习
  • 【MySQL数据库 | 第四篇】SQL通用语法及分类
  • Liskov替换原则:用了继承,子类就设计对了吗?
  • 腾讯云服务器SA3实例AMD处理器CPU网络带宽性能详解
  • 接口测试常用测试点
  • Unity之OpenXR+XR Interaction Toolkit接入HTC Vive解决手柄无法使用的问题
  • AC变DC220V变5V小家电电源芯片-AH8652、AH8669
  • 深度学习笔记之循环神经网络(九)GRU的反向传播过程