当前位置: 首页 > news >正文

基于deepseek的文本解析 - 超长文本的md结构化

pdf超长合同或其他超100页非结构化文档,很难全量提交deepseek进行分析,一般需要先进行分割。然而,不管是langchain还是llamaindex提供的文本分割工具,很难直接对非结构化文本进行准确的内容分割,很多原始整体段落被划分在不同的分块中。

这里尝试基于deepseek,将pdf解析后的非结构化文本转化为结构化的md,以支持langchain或llamaindex进行更有效的向量化文档分块,避免原始整体段落被划分在不同的分块中。

1 解析prompt示例

以下是prompt实例,每次连续读若干页进行解析,确保prompt输入在deepseek max_tokens范围内。为了保持连续性,本次解析的内容和上次解析的内容保持一页重合。如此,对于连续多页待解析块的内容,其第一页已在上次完成解析,相关内容已经合并到md文档中。

already_parsed为之前已经完成解析的结构化md文档。

waiting_parsed为本次待解析的非结构化文本文档。

你是企业运营人员。
以下是已经解析归并后的合同md文件。

{already_parsed}

以下是合同连续多页内容,第一页已经被解析并合并到以上md文件中。
请仔细阅读以上内容,将没有被解析的内容合并到md文件中。
---

{waiting_parsed}

2 deepseek迭代解析

deepseek完成本次解析后,将deepseek解析生成的结构化md作为already_parsed输入,将下次待解析非结构化的若干页文档作为waiting_parsed输入。

如此重复多次,直到完成整个非结构化文档的解析。

最终输出的md文档即为结构化的md文档。

reference

---

deepseek r1 chat

https://chat.deepseek.com/

RAG向量化文档分块方式探索

https://blog.csdn.net/liliang199/article/details/149798215

http://www.lryc.cn/news/606269.html

相关文章:

  • CNN卷积神经网络之LeNet和AlexNet经典网络模型(三)
  • 深入解析LLM层归一化:稳定训练的关键
  • 模型优化——在MacOS 上使用 Python 脚本批量大幅度精简 GLB 模型(通过 Blender 处理)
  • 基于PyTorch利用CNN实现MNIST的手写数字识别
  • 【源力觉醒 创作者计划】对比与实践:基于文心大模型 4.5 的 Ollama+CherryStudio 知识库搭建教程
  • 如何系统性了解程序
  • 【Java安全】CC1链
  • <RT1176系列13>LWIP Ping功能入门级应用和基础API解析
  • MySQL 8.0 OCP 1Z0-908 题目解析(41)
  • python制作的软件工具安装包
  • XL2422 无线收发芯片,可用于遥控玩具和智能家居等应用领域
  • 5G-A技术浪潮勾勒通信产业新局,微美全息加快以“5.5G+ AI”新势能深化场景应用
  • 贝锐蒲公英X4 Pro 5G新品路由器:异地组网+8网口+双频WiFi全都有
  • 5G毫米波射频前端设计:从GaN功放到混合信号集成方案
  • arm架构系统打包qt程序--麒麟操作系统为例
  • [GESP202506 五级] 奖品兑换
  • Python列表完全指南:从基础到实战(2025版)
  • 八股训练--Spring
  • C#反射的概念与实战
  • 网络编程-IP
  • TCP窗口缩放配置在云服务器高延迟网络中的参数调整测试
  • Android端RTMP低延迟播放器在工业与智能场景下的架构与落地
  • 抓大鹅小游戏微信抖音流量主小程序开源
  • TGD第九篇:三维应用——视频边缘检测
  • 【AI论文】MUR:面向大型语言模型的动量不确定性引导推理
  • cuda编程笔记(11)--学习cuBLAS的简单使用
  • Coze Studio概览(四)--Prompt 管理功能详细分析
  • 分布式锁的基本原理和基于lua脚本的实现(Redisson)
  • 红黑树×协程×内存序:2025 C++后端核心三体问题攻防手册
  • 旅游城市数量最大化 01背包问题