当前位置: 首页 > news >正文

MinerU:PDF文档提取工具

目录

  • docker一键启动
  • 本地配置
  • 下载模型权重文件
  • demo.py
  • GPU使用情况

在这里插入图片描述

wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile
docker build -t mineru:latest .

在这里插入图片描述

docker一键启动

有点问题,晚点更新

本地配置

就是在Python环境中配置依赖和安装包
根据需求中下载
在这里插入图片描述
可以pip install requirements-docker.txt
其中最难安装的是detectron2,因为直接pip是找不到的,而且他有CUDA版本要求在12.0以上
版本不够还需要先升级CUDA版本
在这里插入图片描述
可以通过下面命令安装

python -m pip install 'git+https://gitclone.com/github.com/facebookresearch/detectron2.git'

所有依赖安装好之后,安装应用

pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

最后查看一下版本号

magic-pdf --version

在这里插入图片描述

下载模型权重文件

pip install modelscope
wget https://gitee.com/myhloli/MinerU/raw/master/scripts/download_models.py -O download_models.py
python download_models.py

在这里插入图片描述
根目录中已经安装了magic-pdf.json
在这里插入图片描述

demo.py

然后试了一下demo.py,解析一个13页的论文
大概每一页平均需要50s
在这里插入图片描述
解析得到了markdown格式的,但是没有图片,
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这种图片识别不了,还有表格
在这里插入图片描述

在这里插入图片描述

GPU使用情况

还未使用GPU加速
在这里插入图片描述

在这里插入图片描述

http://www.lryc.cn/news/502256.html

相关文章:

  • spark的共享变量
  • Scrapy与MongoDB
  • 爬虫基础与实践
  • 快速上手Serverless架构与FastAPI结合实现自动化移动应用后端
  • ansible自动化运维(二)playbook模式详解
  • 基于Springboot社团管理系统【附源码】
  • CSS:html中,.png的动态图,怎么只让它显示部分,比如只显示右上部分的,或右边中间部分
  • 解读CVPR2024-论文分享|RepViT: Revisiting Mobile CNN From ViT Perspective
  • linux部署安装wordpress
  • [Java] 配置Powershell 的 Maven 环境变量
  • Android -- [SelfView] 自定义弹窗式颜色选择器
  • vue-echarts高度缩小时autoresize失效
  • rabbitMq的rabbitmqctl status报错
  • linux c++ uuid编译时的问题
  • 【STM32】RTT-Studio中HAL库开发教程九:FLASH中的OPT
  • [SWPUCTF 2021 新生赛]crypto9
  • vue中常用的指令
  • Docker Compose实战三:轻松部署PHP
  • 数据分析实战—房价特征关系
  • 云和恩墨 zCloud 与华为云 GaussDB 完成兼容性互认证
  • 【大语言模型LangChain】 ModelsIO OutputParsers详解
  • PaddleSpeech本地部署文档
  • Android 第三方框架:RxJava:源码分析:责任链模式
  • 网络安全 与 加密算法
  • UE4_贴花_贴花基础知识二
  • ElasticSearch 搜索、排序、分页功能
  • MySQL-9.1.0 实现最基础的主从复制
  • Java中的“泛型“
  • 前端(五)css属性
  • 总结拓展十七:SAP 采购订单行项目“交货“页签解析