当前位置: 首页 > news >正文

01_快速入门

读取数据

import pandas as pd# df = pd.read_excel('https://xxxx/xxx//xx.xslx') # 读取网络数据
# df = pd.read_excel(r'd:\data\xx.xslx')  # 读取本地文件
# 如果是csv文件,用read_csv()函数
df = pd.read_csv('seaborn/iris.csv')

查看数据

df.head()  # 前5条记录
df.tail()  # 后5条记录
df.sample(5)# 随机5条记录
df[10:15]  # 10~14记录

验证数据

# df.shape        # 查看行数与列树数(注意是属性,不是函数)
# df.info()       # 查看索引、类型、内存信息
# df.describe()   # 查看数字列的汇总信息
# df.dtypes       # 查看各字段类型
# df.axes         # 查看数据行、列名
df.columns      # 查看列名

建立索引

df.set_index('species',inplace=True) # 指定species 列为索引

选取数据、排序等

## 列选择
# df['sepal_length'] # 通过列名筛选
# df.sepal_length    # 同上
# df[['sepal_length','sepal_width']] # 选择多列,注意数组写法
# df.loc[:,['sepal_length','sepal_width']] # df.loc[x,y]是—个非常强大的数据选择函数,其中x代表行,y代表列。df.iloc[x,y] 与df.locl类似,使用的是自然索引## 行选择
# df[df.index == 'setosa'] # 指定行索引
# df[0:3] # 使用自然索引,类似切片
# df[0:10:2] #前10个中每两个取一个 
# df.iloc[0:10,:] #取前十个## 行、列选择
# df.loc['setosa','sepal_length':'petal_length'] # 'sepal_length':'petal_length'表示列范围## 排序
# df.sort_values('sepal_length')  # 按照sepal_length升序排列
df.sort_values('sepal_length',ascending=False) # 按照sepal_length降序排列

分组聚合

# df.groupby('species') # 按照行索引分组  species是行索引名称
# df.groupby('species').sum() # 分组计算各列数值的总和
df.groupby('species').agg({'sepal_length':sum,      # 总和'sepal_width': 'count',  # 数量'petal_length': 'mean',  # 均值'petal_length':max       # 最大值
})

pandas 数据结构

numpy

NumPy(Numeric Python)是Python的科学计算包,提供多维数组、蒙版数组、矩阵等对象,用于对数组进行快速便捷操作,包括数学、逻辑、形状处理、排序、傅里叶变换、线性代数等。

由于NumPy对数据进行向量化描述,没有任何显式的循环操作,所以执行速度更快,代码更加简洁优雅,出错率更低。NumPy提供了两个基本的对象:

  • ndarray :存储数据的多维数组
  • ufunc :对数组进行处理的函数

使用NumPy需要先导入,约定俗成地为它起别名np。

数据类型

np.int64 有符号64位整形

np.float32 标准双精度浮点型

np.complex 由128位浮点数组组成的复数类型

np.bool bool类型(True 或 False)

np.object Python 中的object类型

np.string 固定长度的string类型

np.unicode 固定长度的unicode类型

np.NaN np.float的子类型,可以认为是None,但又能参与数字运算

np.nan 同 np.nan

Series

Series(系数、数列、序列)是一个带有标签的一维数组,这一系列连续的数据代表了一定的业务意义。

DataFrame

DataFrame意为数据框,它就像一个存放数据的架子,有多行多列,每个数据在一个格子里,每个格子有自己的编号。

常见数据类型:

  • float
  • int
  • bool
  • datetime64[ns]
  • datetime64[ns,tz]
  • timedelta64[ns]
  • timedelta[ns]
  • category
  • object
  • string

数据检测:注意s参数表示一个Series

  • pd.api.types.is_bool_dtype(s)
  • pd.api.types.is_int64_dtype(s)

索引

  • 索引(index):行和列上的标签,标识二维数据坐标的行索引和列索引,默认情况下,指的是每一行的索引。列索引又被称为字段名,表头。
  • 自然索引、数字索引:行和列的0~n(n为数据长度-1)形式的索引,数据天然具有的索引形式。
  • 标签(label):行索引和列索引,如果是Series,那只能是它行上的索引。
  • 轴(axis):仅用在DataFrame结构中,代表数据的方向,如行和列,用0代表列(默认),1代表行。
http://www.lryc.cn/news/441356.html

相关文章:

  • 数据结构之分文件编译学生管理
  • TypeScript入门 (二)控制语句
  • MVP 最简可行产品
  • 数仓工具:datax
  • CSS传统布局方法(补充)——WEB开发系列37
  • 【系统架构设计师】软件架构的风格(经典习题)
  • 网页打开时,下载的文件fetcht类型?有什么作用?
  • 作为HR,如何考察候选人的专业知识与技能
  • 阻止冒泡事件
  • 聊聊Netty对于内存方面的优化
  • 2024年轻人驯化AI指南
  • 算法:双指针题目练习
  • 傅里叶变换的基本性质和有关定理
  • VIM使用技巧
  • C语言进阶【4】---数据在内存中的存储【1】(你不想知道数据是怎样存储的吗?)
  • 【mysql面试题】mysql复习之常见面试题(一)
  • VB.NET中如何利用ASP.NET进行Web开发
  • vue2+js项目升级vue3项目流程
  • 做EDM邮件群发营销时如何跟进外贸客户?
  • 【Java经典游戏】-01-是男人就坚持30秒
  • 微调框QSpinBox
  • 在线查看 Android 系统源代码 AOSPXRef and AndroidXRef
  • JavaScript substr() 方法
  • 教你把图片转换为炫酷的翻页电子杂志
  • 生信软件35 - AI代码编辑器Cursor
  • Vue Router 编程式导航全攻略:深入掌握 push, replace, go, back, forward,beforeEach 方法
  • 切换淘宝最新镜像源:优化NPM包管理的极致体验
  • react 基础语法
  • k8s的NodeIP、PodIP、ClusterIP、ExternalIP
  • 【vue element-ui】关于删除按钮的提示框,可一键复制