当前位置: 首页 > news >正文

panads操作excel

panads简介

pandas是基于Numpy创建的Python包,内置了大量标准函数,能够高效地解决数据分析数据处理和分析任务,pandas支持多种文件的操作,比如Excel,csv,json,txt 文件等,读取文件之后,就可以对数据进行各种清洗、分析操作了。

padas和excel中数据结构的对应关系

pandasexcel
DataFrame工作表(Worksheet)
Series列(Column)
index行号(row index)
Row行(Row)
NaN空单元格(empty cell)

DataFrame

Pandas 中的 DataFrame 类似于 Excel 工作表,虽然 Excel 工作簿可以包含多个工作表,但 Pandas DataFrame 独立存在的。

Series

序列是表示 DataFrame 的一列的数据结构,类似于引用电子表格的列。

Index

每个 DataFrame 和 Series 都有一个索引,它们是数据行上的标签。在 Pandas 中,如果未指定索引,则默认使用 RangeIndex(第一行 = 0,第二行 = 1,依此类推),类似于电子表格中的每行开始的数字。 在 Pandas 中,索引可以设置为一个(或多个)唯一值,这就像在工作表中有一列用作行标识符一样,这些索引值可用于引用行。索引值是持久的,所以对 DataFrame 中的行重新排序,特定行的标签不会改变。

pandas读取excel

pandas读取文件之后,将内容存储为DataFrame,然后就可以调用内置的各种函数进行分析处理。

pandas对xlrd等模块进行了封装,可以很方便的处理excel文件,支持xls和xlsx等格式,需要提前安装模块pip install openpyxl

read_excel

pandas.read_excel(filename, sep, header,encoding)

参数解释

  • **filename:**文件路径,可以设置为绝对路径或相对路径
  • **sep:**分隔符,常用的有逗号 , 分隔、\t 分隔,默认逗号分隔,read_table默认是’\t’(也就是tab)切割数据集的
  • **header:**指定表头,即列名,默认第一行,header = None, 没有表头,全部为数据内容
  • **encoding:**文件编码方式,不设置此选项, Pandas 默认使用 UTF-8 来解码。
  • index_col ,指定索引对应的列为数据框的行标签,默认 Pandas 会从 0、1、2、3 做自然排序分配给各条记录。
  • 通过names=[‘a’,‘b’,‘c’]可以自己设置列标题

read_table()

可以读取Excel中的数据表,并指定分隔符(如制表符或逗号)。

pd.read_table('data.xlsx', sheet_name='Sheet1', delimiter='\t', header=0)
  • 'data.xlsx’是Excel文件的路径。
  • sheet_name='Sheet1’表示要读取的工作表名为’Sheet1’。
  • delimiter=’\t’指定数据表中的分隔符为制表符(‘\t’)。
  • header=0表示将文件中的第0行作为列名。

例子

请添加图片描述

import pandas as pd
result = pd.read_excel(r"E:\2021竞赛题目列表(本科).xlsx")
print(result)

创建Excel

import pandas as pd# 创建数据框
data = {'Name': ['Tom', 'Jerry', 'Mickey', 'Donald'],'Age': [20, 25, 22, 28],'Gender': ['M', 'M', 'M', 'M']}
df = pd.DataFrame(data)# 保存数据框到 Excel 文件
df.to_excel('example.xlsx', index=False)

效果
请添加图片描述

常用操作合集

请添加图片描述

http://www.lryc.cn/news/190099.html

相关文章:

  • 【MySQL】联合查询、子查询、合并查询
  • 小程序中如何设置所服务地区的时区
  • Linux环境安装mysql8.0
  • STM32_DMA_多通道采集ADC出现错位现象
  • Linux内存管理 (2):memblock 子系统的建立
  • 创新学习方式,电大搜题助您迈向成功之路
  • Mybatis整理
  • pytorch定义datase多次重复采样
  • 自动化测试 —— Pytest fixture及conftest详解!
  • Nginx解析漏洞
  • 【机器学习】决策树原理及scikit-learn使用
  • #基于一个小车项目的FREERTOS分析(一)系统时钟
  • ubuntu mmdetection配置
  • 嵌入式面试常见问题(一)
  • docker批量删除本地镜像
  • 数据结构(一)—— 数据结构简介
  • Ubuntu输入正确密码重新跳到登录界面
  • TCP/IP(十四)流量控制
  • CSS网页标题图案和LOGO SEO优化
  • 机器人制作开源方案 | 双轮提升搬运小车
  • 5G安卓核心板-MT6833/MT6853核心板规格参数
  • 信创之国产浪潮电脑+统信UOS操作系统体验4:visual studio code中怎么显示中文
  • Magica Cloth 使用方法笔记
  • c++ 学习之 强制类型转换运算符 const_cast
  • Ceph相关部署应用(博客)
  • 基于 ceph-deploy 部署 Ceph 集群 超详细
  • 做一个物联网的后台程序与数据库设计
  • Pytorch深度学习—FashionMNIST数据集训练
  • uniapp 返回上一步携带参数
  • 软件工程与计算总结(七)需求文档化与验证