基于deepseek的文本解析 - 超长文本的md结构化
pdf超长合同或其他超100页非结构化文档,很难全量提交deepseek进行分析,一般需要先进行分割。然而,不管是langchain还是llamaindex提供的文本分割工具,很难直接对非结构化文本进行准确的内容分割,很多原始整体段落被划分在不同的分块中。
这里尝试基于deepseek,将pdf解析后的非结构化文本转化为结构化的md,以支持langchain或llamaindex进行更有效的向量化文档分块,避免原始整体段落被划分在不同的分块中。
1 解析prompt示例
以下是prompt实例,每次连续读若干页进行解析,确保prompt输入在deepseek max_tokens范围内。为了保持连续性,本次解析的内容和上次解析的内容保持一页重合。如此,对于连续多页待解析块的内容,其第一页已在上次完成解析,相关内容已经合并到md文档中。
already_parsed为之前已经完成解析的结构化md文档。
waiting_parsed为本次待解析的非结构化文本文档。
你是企业运营人员。
以下是已经解析归并后的合同md文件。{already_parsed}
以下是合同连续多页内容,第一页已经被解析并合并到以上md文件中。
请仔细阅读以上内容,将没有被解析的内容合并到md文件中。
---{waiting_parsed}
2 deepseek迭代解析
deepseek完成本次解析后,将deepseek解析生成的结构化md作为already_parsed输入,将下次待解析非结构化的若干页文档作为waiting_parsed输入。
如此重复多次,直到完成整个非结构化文档的解析。
最终输出的md文档即为结构化的md文档。
reference
---
deepseek r1 chat
https://chat.deepseek.com/
RAG向量化文档分块方式探索
https://blog.csdn.net/liliang199/article/details/149798215