当前位置: 首页 > news >正文

Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
pip install pdfminer.six 
pip install markdownify
实现
from pdfminer.high_level import extract_text
from markdownify import markdownifydef pdf2markdown(pdf_path):# 提取 PDF 文本raw_text = extract_text(pdf_path)# 将原始文本转换为 Markdown 格式markdown_text = markdownify(raw_text)return markdown_textdata = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()
http://www.lryc.cn/news/513668.html

相关文章:

  • pyQT + OpenCV相关练习
  • 音视频入门基础:MPEG2-PS专题(3)——MPEG2-PS格式简介
  • 云计算学习架构篇之HTTP协议、Nginx常用模块与Nginx服务实战
  • Zookeeper模式安装Kafka(含常规、容器两种安装方式)
  • 【游戏设计原理】41 - 游戏的核心
  • 机器学习算法基础知识1:决策树
  • [Qt] 信号和槽(1) | 本质 | 使用 | 自定义
  • 33. 简易内存池
  • win32汇编环境,对话框程序模版,含文本框与菜单简单功能
  • 人工智能与传统编程的主要区别是什么?
  • 实战交易策略 篇十一:一揽子交易策略
  • doris 2.1 -Data Manipulation-Transaction
  • 多模态融合:阿尔茨海默病检测
  • Ceph 手动部署(CentOS9)
  • 家政预约小程序05活动管理
  • 解决安装pynini和WeTextProcessing报错问题
  • 【PCIe 总线及设备入门学习专栏 4.1 -- PCI 总线的地址空间分配】
  • 华为配置 之 RIP
  • 探寻AI Agent:开启知识图谱自动生成新篇章(17/30)
  • 卸载wps后word图标没有变成白纸恢复
  • LeetCode 热题 100_二叉树的直径(40_543_简单_C++)(二叉树;递归)
  • 【数据结构】线性数据结构——链表
  • 开源存储详解-分布式存储与ceph
  • [算法] [leetcode-509] 斐波那契数
  • 运维人员的Go语言学习路线
  • [创业之路-222]:波士顿矩阵与GE矩阵在业务组合选中作用、优缺点比较
  • 安卓入门十一 常用网络协议四
  • 《机器学习》——利用OpenCV库中的KNN算法进行图像识别
  • StarRocks 存算分离在得物的降本增效实践
  • Tube Qualify弯管测量系统在汽车管路三维检测中的应用