当前位置: 首页 > article >正文

PDF 转 Markdown

本地可部署的模型

 Marker

Marker 快速准确地将文档转换为 markdown、JSON 和 HTML。

  • 转换所有语言的 PDF、图像、PPTX、DOCX、XLSX、HTML、EPUB 文件
  • 在给定 JSON 架构 (beta) 的情况下进行结构化提取
  • 设置表格、表单、方程式、内联数学、链接、引用和代码块的格式
  • 提取和保存图像
  • 删除页眉/页脚/其他工件
  • 可使用您自己的格式和逻辑进行扩展
  • (可选)使用 LLM 提高准确性
  • 适用于 GPU、CPU 或 MPS

https://github.com/VikParuchuri/marker

Surya

Surya 是一个文档 OCR 工具包,它做到了:

  • 90+ 种语言的 OCR,与云服务相比具有优势
  • 任何语言的行级文本检测
  • 布局分析(表格、图像、标题等检测)
  • 读取顺序检测
  • 表识别(检测行/列)
  • LaTeX OCR

https://github.com/VikParuchuri/surya

MinerU

MinerU 是一种将 PDF 转换为机器可读格式(例如 markdown、JSON)的工具,可以轻松提取为任何格式。 MinerU 诞生于 InternLM 的预训练过程中。我们专注于解决科学文献中的符号转换问题,希望为大模型时代的技术发展做出贡献。

https://github.com/opendatalab/MinerU

需API调用的模型工具

llamaPaser

LlamaCloud

使用样例:

pip install dotenv

pip install llama_parse

pip install llama-index-llms-openai

在 modelDownload.py 文件所在的目录创建一个名为 .env 的文件,并在其中添加以下内容:

LLAMA_CLOUD_API_KEY='llamapaser API密钥'
OPENAI_API_KEY = 'openai APkey'

配置好环境后运行代码: 

# 需要LLAMA_CLOUD_API_KEY
from dotenv import load_dotenv
load_dotenv()   # LlamaParse PDF reader for PDF Parsing
from llama_parse import LlamaParse
documents = LlamaParse(result_type="markdown").load_data("90-文档-Data/黑悟空/黑神话悟空.pdf"
)
print(documents)from llama_index.core.node_parser import MarkdownElementNodeParser
node_parser = MarkdownElementNodeParser()
nodes = node_parser.get_nodes_from_documents(documents)print(nodes)

效果如下: 

http://www.lryc.cn/news/2404471.html

相关文章:

  • 北大开源音频编辑模型PlayDiffusion,可实现音频局部编辑,比传统 AR 模型的效率高出 50 倍!
  • 蒲公英盒子连接问题debug
  • Unity | AmplifyShaderEditor插件基础(第五集:简易膨胀shader)
  • Django核心知识点全景解析
  • 生物发酵展同期举办2025中国合成生物学与生物制造创新发展论坛
  • WINUI——Magewell视频捕捉开发手记
  • Jetpack Compose 中,DisposableEffect、LaunchedEffect 和 sideEffect 区别和用途
  • STM32开发,创建线程栈空间大小判断
  • 正则表达式检测文件类型是否为视频或图片
  • Qwen大语言模型里,<CLS>属于特殊的标记:Classification Token
  • TDengine 开发指南——无模式写入
  • 分布式互斥算法
  • 第34次CCF-CSP认证真题解析(目标300分做法)
  • video-audio-extractor:视频转换为音频
  • rk3588 区分两个相同的usb相机
  • [概率论基本概念4]什么是无偏估计
  • 乐观锁与悲观锁的实现和应用
  • PL/SQLDeveloper中数值类型字段查询后显示为科学计数法的处理方式
  • 【vue】Uniapp 打包Android 文件选择上传问题详解~
  • ASR技术(自动语音识别)深度解析
  • 图论水题2
  • Ctrl-Crash 助力交通安全:可控生成逼真车祸视频,防患于未然
  • 网络编程之服务器模型与UDP编程
  • Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型时序预测
  • 阿里云服务器安装nginx并配置前端资源路径(前后端部署到一台服务器并成功访问)
  • Ubuntu 下开机自动执行命令的方法
  • C++11新增重要标准(下)
  • 【第六篇】 SpringBoot的日志基础操作
  • Pluto论文阅读笔记
  • ubuntu显示器未知