深度学习中主要库的使用:(一)pandas,读取 excel 文件,支持主流的 .xlsx/.xls 格式
pandas
其中的 pd.read_excel()
函数可以读取 excel
文件,支持主流的 .xlsx/.xls
格式。
想要读取 .xlsx
文件就需要再安装 openpyxl
库,想要读取 .xls
文件就需要再安装 xlrd
库。
import pandas as pdfile_path = 'test1.xlsx'
data = pd.read_excel(path, engine='openpyxl')
print(data)
读取的结果是一个 DataFrame
对象,DataFrame
是 pandas
中用于处理表格数据的主要数据结构,它具有丰富的属性和方法,具体如下:
1)常用属性
-
data.shape
:返回一个元组,表示
DataFrame
的维度(行数和列数)。 -
data.columns
:返回一个
Index
对象,包含DataFrame
的列标签。 -
data.index
:返回一个
Index
对象,包含DataFrame
的行标签。 -
data.dtypes
:返回一个
Series
,显示每列的数据类型。 -
data.size
:返回
DataFrame
中元素的总数(行数乘以列数)。 -
data.ndim
:返回
DataFrame
的维度数(通常是 2)。 -
data.empty
:返回一个布尔值,指示
DataFrame
是否为空。
2)常用方法
-
data.head(n)
:返回前
n
行数据(默认是 5 行)。 -
data.tail(n)
:返回后
n
行数据(默认是 5 行)。 -
data.describe()
:返回数值列的统计摘要(如计数、均值、标准差、最小值、四分位数、最大值)。
-
data.info()
:打印
DataFrame
的简要摘要,包括行数、列数、列类型和非空值计数。 -
data.isnull()
:返回一个布尔型
DataFrame
,指示每个元素是否为NaN
。 -
data.dropna()
:删除包含
NaN
的行。 -
data.fillna(value)
:用指定的值填充
NaN
。 -
data.groupby(column)
:按指定列对
DataFrame
进行分组。 -
data.pivot_table(values, index, columns)
:创建一个数据透视表。
-
data.apply(func)
:沿
DataFrame
的轴应用函数。
3)示例
import pandas as pdfile_path = 'test1.xlsx'
data = pd.read_excel(file_path, engine='openpyxl')# 打印形状
print("Shape:", data.shape)
print("----------------------------")
# 打印列标签
print("Columns:", data.columns)
print("----------------------------")
# 打印前两行
print("Head:\n", data.head(2))# -------------------------------------------------------------------------------------------------------------------------
# 输出为:
Shape: (159, 6)
Columns: Index(['frame', 'point number', 'x', 'y', 'z', 'intensity'], dtype='object')
Head:frame point number x y z intensity
0 0 0 1.507812 -0.339844 0.164062 22.174839
1 0 1 1.621094 -0.537109 -0.193359 27.379873