当前位置: 首页 > news >正文

pandas读取一个 文件夹下所有excel文件

我这边有个需求,是要求汇总一个文件夹所有的excel文件, 其中有.xls和 .xlsx文件,同时还excel文件中的数据可能还不一致,会有表头数据不一样需要一起汇总。

首先先遍历子文件夹并读取Excel文件: 使用os库来遍历包含子文件夹的主文件夹,并读取所有的Excel文件。

import osmain_folder = '文件夹路径'
all_data = []for root, dirs, files in os.walk(main_folder):for file in files:if file.endswith(".xlsx"):  # 只处理Excel文件,可以根据需要修改扩展名file_path = os.path.join(root, file)df = pd.read_excel(file_path, skiprows=2)  # 跳过前两行无用数据all_data.append(df)elif file.endswith(".xls"):file_path = os.path.join(root, file)df = pd.read_excel(file_path, skiprows=2, engine='xlrd')all_data.append(df)

然后是合并数据: 使用pandas的concat函数将所有数据帧合并为一个总的数据帧,并处理不同表头的情况。假设表头位于第一行。

combined_df = pd.concat(all_data, ignore_index=True)# 处理不同表头的情况
combined_df = combined_df.fillna('')  # 将NaN值填充为空字符串

最后呢 ,保存总表:将合并后的数据保存到一个新的Excel文件

 combined_df.to_excel('保存的excel文件路径', index=False)

出现的问题

在这里插入图片描述
上图错误, 我用断点调试去看数据, 发现里面出现了一个错误的文件路径。 是以~$ 开头的一个excel文件。但是真实环境中是没有这个excel文件,去查了一下资料
如下解释:
在Windows系统中,当一个Excel文件(.xlsx 或 .xls)正在被某个用户编辑时,Excel会创建一个临时文件,文件名以 ~$ 开头,然后是原始文件的名称。这个临时文件用于跟踪编辑进程,以防止多个用户同时编辑相同的文件时发生冲突。

所以在os.walk遍历文件夹时,它会包括所有文件,包括这些临时文件。这些临时文件通常不应被处理或读取,因为它们是Excel编辑过程中的中间文件。

解决方案

要在遍历文件夹时排除这些临时文件,您可以添加一个条件来检查文件名,如果文件名以 ~$ 开头,则跳过该文件,
在循环中多加一个判断就好了。

if not file.startswith("~$"):
http://www.lryc.cn/news/163267.html

相关文章:

  • Python网页请求超时如何解决
  • 虚幻引擎集成web前端<二>:UE4 像素流 与 web 通信
  • 618-基于FMC+的XCVU3P高性能 PCIe 载板 设计原理图
  • ABB UF C911B108 3BHE037864R010控制主板模块
  • 基于SpringBoot开发的疫情信息管理系统
  • 手敲Cocos简易地图编辑器:人生地图是一本不断修改的书,每一次编辑都是为了克服新的阻挡
  • MySQL——修改数据库和表的字符编码
  • 中国人民大学与加拿大女王大学金融硕士——人生总要逼自己一把
  • SAP MM学习笔记 - 错误 ME092 - Material mainly procured internally(原则上该物料只能内部调达)
  • 【EI会议征稿】2023年智能科学与计算机工程国际学术会议(ISCE 2023)
  • Java多线程编程
  • Windows wsl2安装Ubuntu
  • csp-j模拟赛1总结
  • 有哪些做流程图的软件?分享一些制作方法和注意事项
  • 人工智能AI 全栈体系(一)
  • 权限、认证与授权
  • JAVA 的四种访问权限
  • 【个人博客系统网站】注册与登录 · 加盐加密验密算法 · 上传头像
  • [H5动画制作系列] Sprite及Text Demo
  • 目标检测YOLO实战应用案例100讲-毫米波辐射图像去模糊重建与目标检测
  • Android10 SystemUI系列(一)概述
  • SpringMVC的常用注解,参数传递以及页面跳转的使用
  • Java“牵手”易贝商品列表数据,关键词搜索易贝商品数据接口,易贝API申请指南
  • java中HashMap如何根据value的值去获取key是多少
  • Python|OpenCV-色彩空间之RGB轨迹调试板(5)
  • 安全生产:CVE-2020-11022/CVE-2020-11023漏洞解析
  • 手写Spring:第17章-通过三级缓存解决循环依赖
  • C#使用proto
  • Java基础知识面试题(一)(英语答案)
  • 基于csv数据建立线性回归模型并预测进行评估模型表现案例实现