当前位置：首页 > news >正文

深度学习中主要库的使用：（一）pandas，读取 excel 文件，支持主流的 .xlsx/.xls 格式

news 2025/8/8 13:56:21

pandas

其中的 pd.read_excel() 函数可以读取 excel 文件，支持主流的 .xlsx/.xls 格式。

想要读取 .xlsx 文件就需要再安装 openpyxl 库，想要读取 .xls 文件就需要再安装 xlrd 库。

import pandas as pdfile_path = 'test1.xlsx'
data = pd.read_excel(path, engine='openpyxl')
print(data)

读取的结果是一个 DataFrame 对象，DataFrame 是 pandas 中用于处理表格数据的主要数据结构，它具有丰富的属性和方法，具体如下：

1）常用属性

data.shape：

返回一个元组，表示 DataFrame 的维度（行数和列数）。
data.columns：

返回一个 Index 对象，包含 DataFrame 的列标签。
data.index：

返回一个 Index 对象，包含 DataFrame 的行标签。
data.dtypes：

返回一个 Series，显示每列的数据类型。
data.size：

返回 DataFrame 中元素的总数（行数乘以列数）。
data.ndim：

返回 DataFrame 的维度数（通常是 2）。
data.empty：

返回一个布尔值，指示 DataFrame 是否为空。

2）常用方法

data.head(n)：

返回前 n 行数据（默认是 5 行）。
data.tail(n)：

返回后 n 行数据（默认是 5 行）。
data.describe()：

返回数值列的统计摘要（如计数、均值、标准差、最小值、四分位数、最大值）。
data.info()：

打印 DataFrame 的简要摘要，包括行数、列数、列类型和非空值计数。
data.isnull()：

返回一个布尔型 DataFrame，指示每个元素是否为 NaN。
data.dropna()：

删除包含 NaN 的行。
data.fillna(value)：

用指定的值填充 NaN。
data.groupby(column)：

按指定列对 DataFrame 进行分组。
data.pivot_table(values, index, columns)：

创建一个数据透视表。
data.apply(func)：

沿 DataFrame 的轴应用函数。

3）示例

import pandas as pdfile_path = 'test1.xlsx'
data = pd.read_excel(file_path, engine='openpyxl')# 打印形状
print("Shape:", data.shape)
print("----------------------------")
# 打印列标签
print("Columns:", data.columns)
print("----------------------------")
# 打印前两行
print("Head:\n", data.head(2))# -------------------------------------------------------------------------------------------------------------------------
# 输出为：
Shape: (159, 6)
Columns: Index(['frame', 'point number', 'x', 'y', 'z', 'intensity'], dtype='object')
Head:frame  point number         x         y         z  intensity
0      0             0  1.507812 -0.339844  0.164062  22.174839
1      0             1  1.621094 -0.537109 -0.193359  27.379873