当前位置: 首页 > news >正文

内容索引之word转md工具 - markitdown

切分文档构建RAG库过程中,langchain、llamaindex更期望处理latex、md类带有显式结构文档。

langchain、llamaindex切分word,有可能将段落中间截断,导致切分后的块语义不完整。

所以,需要先将word转化为md格式,然后再进行切分构建RAG知识库。

目前效果较好的word转md工具,要么是需要付费的商业版,要么借助于LLM转化,而LLM调用同样需要付费。

微软的word转md的开源工具markitdown,可以达到类似效果,适合文档分析和内容索引场景。

这里示例markitdown的下载和使用过程。

1 markitdown安装

1)python环境构建

conda create -n markitdown python=3.12
conda activate markitdown

2)markitdown安装

如果git clone失败,可以直接从如下链接下载,然后pip安装。

https://github.com/microsoft/markitdown/archive/refs/tags/v0.1.2.zip

git clone git@github.com:microsoft/markitdown.git
cd markitdown
pip install -e 'packages/markitdown[all]'

2 markidwon 示例

word文件转md文件

markitdown test.docx > document.md

pdf文件转md文件

markitdown test.pdf > pdf.md

整体看word转pdf后能较好的保持文档结构,pdf转md会丢失文档结构。

reference

---

markdidown

https://github.com/microsoft/markitdown

RAG向量化文档分块方式探索

https://blog.csdn.net/liliang199/article/details/149798215

借助于llm将pdf转化为md文本

https://blog.csdn.net/liliang199/article/details/149808465

http://www.lryc.cn/news/619669.html

相关文章:

  • (cvpr2025) IceDiff: 高分辨率北极海冰预报
  • duiLib 利用布局文件显示一个窗口并响应事件
  • 基于UniApp的新大陆物联网平台温湿度检测系统开发方案
  • 在JVM跑JavaScript脚本 | Oracle GraalJS 简介与实践
  • 【AI论文】GLM-4.5:具备智能体特性、推理能力与编码能力的(ARC)基础模型
  • Avalon-MM协议
  • 浅层神经网络
  • SimD小目标样本分配方法
  • 开发避坑指南(24):RocketMQ磁盘空间告急异常处理,CODE 14 “service not available“解决方案
  • 设计原则之【抽象层次一致性(SLAP)】,方法也分三六九等
  • 从零到一:TCP 回声服务器与客户端的完整实现与原理详解
  • Linux LNMP配置全流程
  • 机器学习之词向量转换
  • 第5章 学习的机制
  • 对比学习中核心损失函数的发展脉络
  • AI服务器需求激增,三星内存与SSD供不应求,HBM与DDR5成关键驱动力
  • 2025年高效能工程项目管理软件推荐榜单:AI重构工程进度可视化与资源动态调度体系
  • kernel pwn 入门(四) ret2dir详细
  • 《嵌入式Linux应用编程():Linux Framebuffer图形编程》
  • Win11和Mac设置环境变量
  • 机器学习阶段性总结:对深度学习本质的回顾 20250813
  • Html5-canvas动态渐变背景
  • mac 安卓模拟器 blueStacks
  • MacOS字体看起来比在 Windows 上更好?
  • 367. 有效的完全平方数
  • Spring Boot + MyBatis
  • Python 元类基础:从理解到应用的深度解析
  • [CSCCTF 2019 Qual]FlaskLight
  • [AI React Web] 包与依赖管理 | `axios`库 | `framer-motion`库
  • Spring cloud集成ElastictJob分布式定时任务完整攻略(含snakeyaml报错处理方法)