当前位置: 首页 > news >正文

【大模型微调】pdf转markdown

目前市面上大部分都是pdf文档,要想转换成能训练的文本,调研了各种工具。

觉得MinerU确实不错。

参考此链接进行操作

MinerU/docs/README_Ubuntu_CUDA_Acceleration_en_US.md at master · opendatalab/MinerU · GitHub

需要注意的几个点:

1. 使用root账户安装的,配置文件在此处  /root/magic-pdf.json

2. 配置文件cuda,使能表格的配置文件参考为

{"bucket_info": {"bucket-name-1": ["ak","sk","endpoint"],"bucket-name-2": ["ak","sk"
http://www.lryc.cn/news/496599.html

相关文章:

  • Vue 3 结合 TypeScript基本使用
  • Trotter steps的复杂性分析
  • mean,median,mode,var,std,min,max函数
  • JavaScript实现tab栏切换
  • 精确电压输出,家电和工业设备的完美选择,宽输入电压线性稳压器
  • 深入理解定时器:优先队列与时间轮实现
  • autogen-agentchat 0.4.0.dev8版本的安装
  • JAVA |日常开发中读写XML详解
  • React 路由与组件通信:如何实现路由参数、查询参数、state和上下文的使用
  • 帮我写一篇关于AI搜索网页上编写的文章是否存在版权问题的文章, 字数在 3000 字左右。文心一言提问, 记录后用.
  • 电脑关机的趣味小游戏——system函数、strcmp函数、goto语句的使用
  • AttributeError: ‘DataFrame‘ object has no attribute ‘append‘的参考解决方法
  • java垃圾回收机制介绍
  • SpringMVC跨域问题解决方案
  • 【语音识别】Zipformer
  • vue+uniapp+echarts的使用(H5环境下echarts)
  • 【Python网络爬虫笔记】7-网络爬虫的搜索工具re模块
  • 为什么选择 React Native 作为跨端方案
  • 服务器与普通电脑有什么区别?
  • Oracle 12c Data Guard 环境中的 GAP 修复方法
  • 力扣 三角dp
  • SQL基础语法全解析(上篇)
  • 【笔记】Linux服务器端使用百度网盘
  • UEFI Spec 学习笔记---3 - Boot Manager(3)
  • ATTCK红队评估实战靶场(四)
  • Android Studio 历史版本下载
  • 微信小程序px和rpx单位互转方法
  • Vercel 部署与管理指南:简化前端应用的自动化部署流程
  • Java11使用JVM同一日志框架启用日志记录
  • onlyoffice实现文档比对(Beta版)-纯文字比对(非OCR)