当前位置：首页 > news >正文

基于deepseek的文本解析 - 超长文本的md结构化

news 2025/8/1 12:00:57

pdf超长合同或其他超100页非结构化文档，很难全量提交deepseek进行分析，一般需要先进行分割。然而，不管是langchain还是llamaindex提供的文本分割工具，很难直接对非结构化文本进行准确的内容分割，很多原始整体段落被划分在不同的分块中。

这里尝试基于deepseek，将pdf解析后的非结构化文本转化为结构化的md，以支持langchain或llamaindex进行更有效的向量化文档分块，避免原始整体段落被划分在不同的分块中。

1 解析prompt示例

以下是prompt实例，每次连续读若干页进行解析，确保prompt输入在deepseek max_tokens范围内。为了保持连续性，本次解析的内容和上次解析的内容保持一页重合。如此，对于连续多页待解析块的内容，其第一页已在上次完成解析，相关内容已经合并到md文档中。

already_parsed为之前已经完成解析的结构化md文档。

waiting_parsed为本次待解析的非结构化文本文档。

你是企业运营人员。
以下是已经解析归并后的合同md文件。

{already_parsed}

以下是合同连续多页内容，第一页已经被解析并合并到以上md文件中。
请仔细阅读以上内容，将没有被解析的内容合并到md文件中。
---

{waiting_parsed}

2 deepseek迭代解析

deepseek完成本次解析后，将deepseek解析生成的结构化md作为already_parsed输入，将下次待解析非结构化的若干页文档作为waiting_parsed输入。

如此重复多次，直到完成整个非结构化文档的解析。

最终输出的md文档即为结构化的md文档。

reference

---

deepseek r1 chat

https://chat.deepseek.com/

RAG向量化文档分块方式探索

https://blog.csdn.net/liliang199/article/details/149798215

查看全文

http://www.lryc.cn/news/606269.html

CNN卷积神经网络之LeNet和AlexNet经典网络模型（三）

深入解析LLM层归一化：稳定训练的关键

模型优化——在MacOS 上使用 Python 脚本批量大幅度精简 GLB 模型（通过 Blender 处理）

基于PyTorch利用CNN实现MNIST的手写数字识别

【源力觉醒创作者计划】对比与实践：基于文心大模型 4.5 的 Ollama+CherryStudio 知识库搭建教程

如何系统性了解程序

【Java安全】CC1链

＜RT1176系列13＞LWIP Ping功能入门级应用和基础API解析

MySQL 8.0 OCP 1Z0-908 题目解析(41)

python制作的软件工具安装包

XL2422 无线收发芯片，可用于遥控玩具和智能家居等应用领域

5G-A技术浪潮勾勒通信产业新局，微美全息加快以“5.5G+ AI”新势能深化场景应用

贝锐蒲公英X4 Pro 5G新品路由器：异地组网+8网口+双频WiFi全都有

5G毫米波射频前端设计：从GaN功放到混合信号集成方案

arm架构系统打包qt程序--麒麟操作系统为例

[GESP202506 五级] 奖品兑换

Python列表完全指南：从基础到实战（2025版）

八股训练--Spring

C#反射的概念与实战

网络编程-IP

TCP窗口缩放配置在云服务器高延迟网络中的参数调整测试

Android端RTMP低延迟播放器在工业与智能场景下的架构与落地

抓大鹅小游戏微信抖音流量主小程序开源

TGD第九篇：三维应用——视频边缘检测

【AI论文】MUR：面向大型语言模型的动量不确定性引导推理

cuda编程笔记（11）--学习cuBLAS的简单使用

Coze Studio概览（四）--Prompt 管理功能详细分析

分布式锁的基本原理和基于lua脚本的实现（Redisson）

红黑树×协程×内存序：2025 C++后端核心三体问题攻防手册

旅游城市数量最大化 01背包问题

相关文章：