当前位置: 首页 > news >正文

MinerU将PDF转成md文件,并分拣图片

首先自行安装python3,必须大于3.10以上的版本

博主是已经有了python3,这里就不演示了

1.Magic-PDF 安装方法

conda create -n mineru python=3.12.8

如果之前安装 MinerU 时已创建过虚拟环境,可直接激活   是虚拟环境名mineru

conda activate mineru

然后使用pip安装 Magic-PDF 完整版功能包

pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

2.下载模型文件

从 ModelScope 下载(官方推荐这里下载)

首先安装modelscope

pip install modelscope

然后下载脚本文件

https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py

安装模型

python download_models.py

从 Hugging Face 下载(可选)

安装huggingface_hub

pip install huggingface_hub

接着下载下载脚本

wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models_hf.py -O download_models_hf.py

安装模型

python download_models_hf.py

http://www.lryc.cn/news/584194.html

相关文章:

  • 【fitz+PIL】PDF图片文字颜色加深
  • 每日一SQL 【各赛事的用户注册率】
  • 基于Python的旅游推荐协同过滤算法系统(去哪儿网数据分析及可视化(Django+echarts))
  • 分布式ID方案
  • 数学建模-
  • ArcGIS 打开 nc 降雨量文件
  • 亚矩阵云手机破解Maio广告平台多账号风控:从“生存焦虑”到“规模化增长”的终极方案
  • SQL Server通过存储过程实现企业微信消息卡片推送
  • 机器学习核心算法:PCA与K-Means解析
  • 智慧监所:科技赋能监狱管理新变革
  • jetson agx orin 刷机、cuda、pytorch配置指南【亲测有效】
  • 【拓扑的基】示例及详解
  • 【LeetCode 热题 100】2. 两数相加——(解法二)迭代法
  • Java代码块
  • HTML应用指南:利用GET请求获取全国永辉超市门店位置信息
  • @RequestBody和@ResponseBody注解的作用
  • html的outline: none;
  • AI进化论06:连接主义的复兴——神经网络的“蛰伏”与“萌动”
  • 【性能测试】jmeter+Linux环境部署和分布式压测,一篇打通...
  • 【科研绘图系列】R语言绘制相关系数图
  • idea安装maven 拉取依赖失败的解决办法
  • AI问答之手机相机专业拍照模式的主要几个参数解释
  • 《PyQt6-3D:开启Python 3D开发新世界》
  • XSS(ctfshow)
  • cpu利用率,系统吞吐量,周转时间,等待时间,响应时间详解(操作系统)
  • 二进制安全-汇编语言-06-包含多个段的程序
  • QBoost 2025版:加速手机性能,提升使用体验
  • pytorch深度学习-Lenet-Minist
  • 从零开始搭建深度学习大厦系列-2.卷积神经网络基础(5-9)
  • 基于 Flutter 的开源文本 TTS 朗读器(支持 Windows/macOS/Android)