当前位置: 首页 > news >正文

使用pywin32读取doc文档的方法及run输出乱码 \r\x07

       想写一个读取doc文档中表格数据,来对文档进行重命名。经查资料,py-docx无法读取doc文档,原因是这种是旧格式。所以,采用pywin32来进行读取。

       

    import win32com.client as win32word = win32.gencache.EnsureDispatch('Word.Application',)word.Visible = 0Ndoc = word.Documents.Add()doc = word.Documents.Open(file_path)for t in doc.Tables:for row in t.Rows:for cell in row.Cells:print(cell.Range.Text)

          一运行,结果都是一个框一个框:

        以为是编码出了问题,在网上找了原因,gbk/utf-8/utf-16,甚至iso-8859-1各种encode/decode,发现能输出一些字符。无奈一decode都是无果。

      各种网站解析无果,我跑去问“文心一言”,居然能翻出来。说明是解析出问题,但是咋都找不到原因。

       检查代码,跟其他人写的也一样,这时只能怀疑编译环境了。目前我的版本是3.9,但是这步没办法排查。我只能试试输出到其他地方是什么结果了。 我直接把文件名给改了,结果看到了这样的错误。

     看到输出文字,我很高兴,并且留意到\r\x07这个字符,复制到网上一搜,果然看到同样的问题。原来是出现这些转义符号,输出异常了。只要把它们删除即可。  

print(cell.Range.Text.replace("\r\x07", ""))

    总算是可以了,一个小小的问题折腾的一天,果然是生蔬了。同时也感慨人工智能的进步,写程序提高效率肉眼可见!

http://www.lryc.cn/news/184571.html

相关文章:

  • 一天一八股——TCP保活keepalive和HTTP的Keep-Alive
  • 头部品牌停业整顿,鲜花电商的中场战事迎来拐点?
  • 深入解读redis的zset和跳表【源码分析】
  • elasticsearch内存占用详细分析
  • 【研究生学术英语读写教程翻译 中国科学院大学Unit3】
  • 基于虚拟同步发电机控制的双机并联Simulink仿真模型
  • 微信小程序开发——自定义堆叠图
  • 国庆day5
  • 经典算法----迷宫问题(找出所有路径)
  • macOS下 /etc/hosts 文件权限问题修复方案
  • 【星海出品】ansible入门(二) playbook
  • Spring Boot对账号密码进行加密储存
  • 总结js中常见的层次选择器
  • 阿里云ECS服务器上启动的portainer无法访问的问题
  • JavaScript系列从入门到精通系列第十八篇:JavaScript中的函数作用域
  • 开环模块化多电平换流器仿真(MMC)N=6(Simulink仿真)
  • [C]嵌入式中变量存储方案
  • 热迁移中VirtIO-PCI设备的配置空间处理
  • 模拟滤波器的基础知识和设计
  • 机器学习基础-Pandas学习笔记
  • 【GIT版本控制】--协作流程
  • 简析Cookie、Session、Token
  • 加速attention计算的工业标准:flash attention 1和2算法的原理及实现
  • 小程序获取用户手机号
  • Zama的fhEVM:基于全同态加密实现的隐私智能合约
  • Mac M1安装ROS1或ROS2
  • [NISACTF 2022]popchains - 反序列化+伪协议
  • 分贝定义简介
  • socket简介
  • 【AI视野·今日Robot 机器人论文速览 第四十九期】Fri, 6 Oct 2023