当前位置: 首页 > news >正文

『python爬虫』使用docling 将pdf或html网页转为MD (保姆级图文)

目录

    • 预览效果
    • 安装
    • 下载模型
    • 测试代码
    • 总结


欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中

预览效果

支持转化pdf的表格

在这里插入图片描述

安装

Docling 本身是专注于文档转换的工具,通常用于将文件(如 PDF)转换为其他格式(如 Markdown)

要求python3.11版本+

pip install docling

下载模型

  • 第一次运行需要下载外网的模型,需要tz保证网络通畅,否则会一直飘红报错
  • 可能需要较长时间计算分析,尤其是你没有GPU 使用CPU的情况
Fetching 9 files: 100%|██████████| 9/9 [00:00<00:00, 15840.85it/s]
Neither CUDA nor MPS are available - defaulting to CPU. Note: This module is much faster with a GPU.

测试代码

from docling.document_converter import DocumentConverter# 第一次运行需要下载外网的模型,需要tz保证网络通畅# 外网pdf论文
# source = "https://arxiv.org/pdf/2206.01062"  # document per local path or URL# 可以是网页
# source = "https://blog.csdn.net/u011027547/article/details/143885170"  # document per local path or URL# 可以是pdf
source = "https://www.gov.cn/zhengce/zhengceku/2022-11/12/5726417/files/b0d97070c0674ab0a1dec4ccd45dd726.pdf"  # document per local path or URL# 初始化 DocumentConverter
converter = DocumentConverter()# 执行转换
result = converter.convert(source)# 获取转换后的 Markdown 内容
markdown_content = result.document.export_to_markdown()# 保存到 .md 文件
with open(source.split('/')[-1]+".md", "w", encoding="utf-8") as md_file:md_file.write(markdown_content)print("Markdown 文件已保存为 "+source.split('/')[-1]+".md")

总结

大家喜欢的话,给个👍,点个关注!给大家分享更多计算机专业学生的求学之路!

版权声明:

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2023 mzh

Crated:2023-3-1

欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
『未完待续』


http://www.lryc.cn/news/493889.html

相关文章:

  • elasticsearch现有集群扩展节点
  • 力扣162:寻找峰值
  • Kafka-Connect
  • 递归、搜索与回溯算法 - 3 ( floodfill 记忆化搜素 9000 字详解 )
  • YOLOv9改进,YOLOv9引入CAS-ViT(卷积加自注意力视觉变压器)中AdditiveBlock模块,二次创新RepNCSPELAN4结构
  • HDLCPPP原理与配置
  • react + vite 中的环境变量怎么获取
  • 知识蒸馏中有哪些经验| 目标检测 |mobile-yolov5-pruning-distillation项目中剪枝知识分析
  • Oracle 19c RAC单节点停机维护硬件
  • Linux系统 进程
  • 机载视频流回传+编解码方案
  • Ubuntu 20.04 Server版连接Wifi
  • 【VRChat 改模】开发环境搭建:VCC、VRChat SDK、Unity 等环境配置
  • 人工智能的微积分基础
  • Android 基础类(01)- Thread类 - readyToRun和threadLoop
  • C++设计模式之构造器
  • 红日靶场-5
  • 做异端中的异端 -- Emacs裸奔之路3: 上古神键Hyper
  • Java多线程介绍及使用指南
  • HarmonyOS 5.0应用开发——列表(List)
  • 自动化电气行业的优势和劣势是什么
  • 第 42 章 - Go语言 设计模式
  • 【机器学习】---大语言模型
  • 挑战用React封装100个组件【002】
  • MarkDown-插入图片-图片url地址的生成获取方法
  • 插值、拟合和回归分析的相关知识
  • 【小白学机器学习42】进行多次抽样,样本的分布参数和总体的分布参数的关系
  • 链动星海 质引未来|中信银行加码科技金融 “接力式”服务助力“新质生产力”释放
  • 黑马2024AI+JavaWeb开发入门Day02-JS-VUE飞书作业
  • 云计算基础-期末复习