当前位置：首页 > news >正文

深入金融与多模态场景实战：金融文档分块技术与案例汇总

news 2025/7/2 7:56:27

1. 金融场景RAG分块方法汇总

本部分详细介绍从基础到前沿的各类文档分块技术，所有示例均围绕金融场景展开，并覆盖了处理图表等复杂元素的多模态方法。

1.1 文本基础分块策略

固定大小分块

·说明：将文本按照固定的字符数或token数切分为等大小的块，通常配置重叠（Overlap）以维持上下文。

·优点：实现简单，计算开销极低；切分速度快。

·缺点：生硬切分，极易破坏金融术语或条款的完整性，导致语义失真。

·实现要点/常用库：CharacterTextSplitter (LangChain)。

·金融场景示例：

o输入文本（源自市场分析报告）：

本季度，我们的SaaS业务收入实现了30%的同比增长，主要得益于企业级客户的强劲需求。然而，公司的硬件销售部门面临供应链中断的挑战。

o分割边界说明：按固定60个字符切分，无重叠。

o输出块（效果不佳）：

[  "本季度，我们的SaaS业务收入实现了30%的同比增长，主要得益于企业级客户的强劲需求。",  "然而，公司的硬件销售部门面临供应链中断的挑战。"]

o问题分析：第一个块结尾处的句子被截断，丢失了“硬件销售”这一关键主语。

递归字符分块

·说明：使用一个有序的字符列表（如 ["\n\n", "\n", "。"]）进行递归切分，优先尝试在最符合逻辑的边界（段落、句子）上分割。

·优点：尽可能保持语义单元的完整性，比固定大小分块智能得多。

·缺点：本质上仍是启发式分割，而非真正理解语义。

·实现要点/常用库：RecursiveCharacterTextSplitter (LangChain)。

·应用建议：这是所有策略的起点 (Baseline)。始终从递归字符分块开始，它简单、快速且对于各类纯文本文档（如新闻、邮件、会议纪要）的效果通常不错。

·金融场景示例：

o输入文本（源自盈利电话会议实录）：

CEO: 2023财年第四季度，我们的净利润达到了创纪录的5亿美元。这主要归功于我们对运营效率的持续优化和在新兴市场的成功扩张。我们将继续投资于AI研发，以巩固我们的竞争优势。

o分割边界说明：使用 ["\n\n", "\n", "。"] 列表递归分割。

o输出块：

[  "CEO: 2023财年第四季度，我们的净利润达到了创纪录的5亿美元。",  "这主要归功于我们对运营效率的持续优化和在新兴市场的成功扩张。我们将继续投资于AI研发，以巩固我们的竞争优势。"]

1.2 基于文档结构的分块策略

·说明：利用文档固有的结构化标记（如Markdown的#, -，HTML的）作为切分依据。

·优点：分块与文档逻辑结构完全对齐，对财报、招股书等结构化文档效果极佳。

·缺点：严重依赖于文档格式的规范性。

·实现要点/常用库：MarkdownHeaderTextSplitter, HTMLHeaderTextSplitter (LangChain)。

·应用建议：结构化文档优先。如果你的文档是财报（10-K）、招股书、法律合同等格式规范的文档，优先使用此方法，因为它能最忠实地反映原始内容的逻辑。

·金融场景示例：

o输入文本（源自Markdown格式的基金招股书）：

## 风险因素投资本基金涉及多种风险，包括但不限于市场风险、信用风险和流动性风险。 ### 市场风险市场风险指因市场价格（利率、汇率、股价等）的不利变动而使本基金资产发生损失的风险。

o分割边界说明：按Markdown标题（##和###）进行分割。

o输出块：

[  "## 风险因素\n投资本基金涉及多种风险，包括但不限于市场风险、信用风险和流动性风险。",  "### 市场风险\n市场风险指因市场价格（利率、汇率、股价等）的不利变动而使本基金资产发生损失的风险。"]

1.3 高级语义分块策略

语义分块

·说明：通过计算句子或文本片段间的语义相似度来决定分块边界。当相邻片段的语义差异超过阈值时，进行切分。

·优点：分块边界符合主题逻辑，即使没有明确的格式分隔符也能准确切分。

·缺点：计算开销大，效果依赖嵌入模型的质量。

·实现要点/常用库：SemanticSplitterNodeParser (LlamaIndex)。

·金融场景示例：

o输入文本（源自行业研究报告）：

美联储的加息周期对科技股估值构成压力。高利率环境增加了企业的借贷成本。相比之下，能源板块因地缘政治紧张局势而表现强劲。石油价格上涨直接利好相关企业盈利。

o分割边界说明：计算句间嵌入向量的余弦距离，在距离突变处（即话题从“利率与科技股”转向“能源板块”）分割。

o输出块：

[  "美联储的加息周期对科技股估值构成压力。高利率环境增加了企业的借贷成本。",  "相比之下，能源板块因地缘政治紧张局势而表现强劲。石油价格上涨直接利好相关企业盈利。"]

命题分块

·说明：利用LLM将文本分解为一系列原子性的事实陈述（命题），然后对这些命题进行索引和检索。

·优点：检索粒度极细，能精准匹配具体事实，非常适合用于复杂的金融合同或财报附注分析。

·缺点：严重依赖LLM生成命题的质量，成本高。

·实现要点/常用库：需要强大的LLM（如GPT-4）和精心设计的Prompt。

·应用建议：追求高精度问答。对于需要从复杂条款中精准提取事实的场景（如合规、尽职调查、合同审查），命题分块是一个值得投资的高级选项，它能将检索精度提升到新高度。

·金融场景示例：

o输入文本（源自财报附注）：

于2023年6月30日，本公司以5亿美元的总对价完成了对FutureAI公司的收购，其中3亿美元以现金支付，其余部分通过发行200万股普通股完成。

o分割边界说明：使用LLM将文本分解为独立的命题。

o输出的命题（用于嵌入和检索）：

[  "本公司于2023年6月30日完成了对FutureAI公司的收购。",  "收购总对价为5亿美元。",  "支付方式中包含3亿美元现金。",  "支付方式中包含发行200万股普通股。"]

智能体分块

·说明：将分块过程本身视为一个由LLM驱动的智能体任务。智能体（Agent）会像人类研究员一样“阅读”和“思考”整个文档，动态地决定如何分块。

·优点：分块质量极高，能充分理解文档的宏观结构和微观细节；能处理高度复杂的非结构化文档。

·缺点：实现复杂度最高，计算成本和延迟极大；目前仍处于探索阶段。

·实现要点/常用库：依赖高级LLM的推理能力，可基于LangChain或LlamaIndex的Agent框架进行自定义开发。

·应用建议：探索前沿。对于需要极致质量且不计成本的复杂文档分析任务（如并购协议分析），可以探索此方法。

·金融场景示例：

o输入文本：一份50页的并购协议PDF文档。

o分割边界说明：Agent首先阅读整个文档，识别出“交易概述”、“定价条款”、“交割条件”、“陈述与保证”等关键章节。然后，它为每个章节生成一个摘要。接着，它深入“交割条件”章节，将每个独立的条件（如“获得监管批准”、“无重大不利影响”）提取为独立的块，并为每个块附加上下文摘要。

o输出块（概念性）：

[  {    "content": "交割条件3.1(a): 买方已获得所有必要的反垄断监管机构的批准。",    "metadata": { "source_chapter": "第三章：交割条件", "summary": "本章列出了交易完成前必须满足的所有先决条件。" }  },  {    "content": "交割条件3.1(b): 自协议签署之日起，未发生任何重大不利影响。",    "metadata": { "source_chapter": "第三章：交割条件", "summary": "本章列出了交易完成前必须满足的所有先决条件。" }  }]

1.4 多模态分块策略

表格提取与摘要

·应用建议：拥抱多模态。如果文档中的图表（财务数据、趋势图）至关重要，必须引入多模态分块策略，否则将丢失关键信息。

·说明：专门处理文档中的表格。首先使用工具识别并提取表格，然后利用LLM对表格内容生成一段准确的文本摘要，最后将这段摘要作为文本块进行索引。

·优点：将结构化的数字信息转化为LLM可理解的自然语言，解锁对财务数据的直接问答能力。

·缺点：需要专门的表格识别工具，且LLM生成摘要会增加成本和延迟。

·实现要点/常用库：Unstructured.io 或 PyMuPDF 用于提取表格，再结合LLM生成摘要。

·金融场景示例：

o输入：年报中的一张财务摘要表格图片。

o分割处理：1. 提取表格为JSON。 2. LLM根据JSON生成文本摘要。

o输出块（用于索引的文本摘要）：

[  "财务摘要显示，公司2023财年总收入为120亿美元，同比增长15%。其中，净利润为20亿美元，同比增长25%。毛利率从去年的55%提升至58%。"]

图像文本关联

·说明：将文档中的图像（如业绩图表）与其周围的文本（标题、说明）关联起来。索引时，可以为图像生成一段描述（Captioning）或直接使用其关联文本作为“代理”进行嵌入。

·优点：使得基于文本的查询能够检索到相关的图像，为答案提供可视化证据。

·缺点：图像描述模型的质量至关重要；关联文本的准确性也影响检索效果。

·实现要点/常用库：使用多模态LLM（如GPT-4V）生成图像描述；使用PyMuPDF等工具提取图像及其物理位置附近的文本。

·金融场景示例：

o输入：研报中的一张“各业务板块收入占比”饼图，图下方有标题：“图5：2023年收入构成”。

o分割处理：1. 提取饼图。 2. 使用多模态模型为图片生成详细描述。 3. 将描述与图片标题合并。

o输出块（概念性）：

{  "text_representation": "图5展示了2023年的收入构成。饼图显示，云服务板块是最大的收入来源，占比达到60%；其次是硬件销售，占比30%；其他业务占比10%。",  "original_image_path": "/images/chart_5.png"}

1.5 增强与优化策略

·应用建议：必备优化项。无论使用哪种分块策略，都强烈建议结合本节中的策略，这是提升RAG系统性能最有效的优化手段之一。

上下文增强

·说明：在每个块被索引之前，为其补充额外的上下文信息。常见的方法是句子窗口 (Sentence Window)，即在每个目标句子块前后，各附加k个句子作为上下文。

·优点：在不增加块大小的情况下，为小块提供了更丰富的背景信息，有助于模型理解其在全局语境中的含义。

·缺点：增加了索引的复杂度和存储量。

·实现要点/常用库：SentenceWindowNodeParser (LlamaIndex)。

·金融场景示例（句子窗口）：

o输入文本（源自央行会议纪要）：委员会对通胀前景保持警惕。因此，我们决定将基准利率上调25个基点。未来的决策将继续依赖于经济数据。

o分割边界说明：以句子为单位，窗口大小为1。对核心决策句进行索引时，将前一句和后一句作为元数据附加。

o输出块（用于索引）：

{  "chunk_to_embed": "因此，我们决定将基准利率上调25个基点。",  "window_context": "委员会对通胀前景保持警惕。因此，我们决定将基准利率上调25个基点。未来的决策将继续依赖于经济数据。"}

小块到大块

·说明：一种检索增强技术。索引时，使用小而精确的块（如句子、命题）进行嵌入。检索时，先找到最相关的小块，然后返回这些小块所属的、更大的父块（如整个段落）给LLM，以提供充足的上下文。

·优点：结合了小块检索的精确性和大块上下文的完整性，是平衡精度和上下文的最佳实践。

·缺点：索引和检索逻辑更复杂，需维护块之间的父子关系。

·实现要点/常用库：ParentDocumentRetriever (LangChain), NodeRelationship (LlamaIndex)。

·金融场景示例：

o索引阶段：将投资合同的每个条款（小块）及其所属章节（大块）都进行存储和映射。只对条款进行嵌入。

o检索阶段：

§用户查询：“提前终止合同的条件是什么？”

§步骤1 (检索小块)：查询匹配到条款7.2a：“若市场发生重大不利变化，甲方有权提前终止合同。”

§步骤2 (获取大块)：根据映射找到该条款所属的整个“第七章：合同终止”的内容。

§最终送入LLM的上下文：“第七章：合同终止。7.1 正常终止... 7.2 提前终止条件：a) 若市场发生重大不利变化... b) ...”

2. 决策指南与总结

2.1 策略选择的核心思想

选择分块策略是一个权衡过程，需要在实现成本、运行开销和检索质量之间找到平衡点。没有单一的“最佳”策略，成功的RAG系统通常是多种策略的组合。例如，使用“基于文档结构分块”作为基础，结合“表格提取与摘要”处理财报，并用““小块到大块”检索”进行优化，会是一个非常强大的方案。

2.2 策略对比总结表

（评级从1到5，数值越高代表程度越高，如：实现复杂度5代表非常复杂）

策略名称	实现复杂度	计算成本	语义一致性	最佳金融应用场景
固定大小分块	1	1	1	（不推荐用于金融）快速原型验证
递归字符分块	2	1	2	通用默认选项，处理新闻、邮件等半结构化文本
基于文档结构分块	2	1	4	财报（10-K）、招股书、法律合同
语义分块	3	3	5	行业研究报告、宏观经济分析（主题多变）
命题分块	4	4	5	合同条款分析、财报附注细节提取、尽职调查
智能体分块	5	5	5	并购协议分析、复杂投行报告的深度解析
表格提取与摘要	3	4	5	财务报表分析、业绩数据对比
图像-文本关联	3	3	4	研报中的业绩图、市场份额图的解读
上下文增强分块	2	2	(增强策略)	央行会议纪要、政策声明等上下文敏感文本
“小块到大块”检索	3	2	(增强策略)	强烈推荐，用于优化任何分块策略的上下文完整性