当前位置：首页 > news >正文

QA - RAG智能问答系统中的文档切片与实现原理

news 2025/7/2 7:56:29

引言

在现代企业知识管理系统中，智能问答系统正发挥着越来越重要的作用。GC-QA-RAG系统作为葡萄城技术栈中的重要组成部分，其核心功能是通过对文档内容进行智能切片和向量化存储，实现对技术文档的高效检索和问答。本文将深入剖析该系统的文档切片原理，包括短文档和长文档的不同处理策略，以及如何将这些技术应用于实际场景中。

正文

1. 原始方案及其局限性

最初的GC-QA-RAG系统采用了一种直观的方法：将整个文档直接输入大语言模型，自动生成问答对(QA Pairs)。这种方法虽然简单，但在实际应用中暴露出了明显的局限性。

对于短文档（如1-2句话的产品说明），模型经常会产生超出原文范围的信息。例如，面对"支持多种数据格式"这样的简单描述，模型可能会虚构出具体格式列表等原文未提及的内容。

对于长文档（如技术白皮书），模型输出存在明显的数量瓶颈：

稳定输出区间为10-15个QA对
超过阈值后会出现：
- 问题重复（相同知识点的不同表述）
- 重要内容细节丢失
- 答案偏离（过度泛化或补充外部知识）

这些局限性促使研发团队需要深入解决两个核心问题：

短文档精准控制：如何确保生成的问答对严格限定在原文范围内
长文档完整覆盖：如何突破数量限制，实现无遗漏的知识点提取

2. 短文档处理策略：基于句子计数的动态控制

针对短文档，团队提出了一个关键假设：每个句子对应一个独立知识点，可以被转化为一个QA对。基于此，设计了一套基于句子数量预估生成QA数量的方法。

核心流程如下：

single_group_template = """
需要针对文档生成不少于{{QA_Count}}个问答对...
文档内容：{{Content}}
"""

中文文本处理优化方面，系统做了以下特殊处理：

主要使用"。“、”？“、”！"等作为断句标志
对包含特殊字符的语句（如变量名中的"."）保留不切分
自动过滤空白句与无效段落

这些优化显著提升了短文档信息抽取的完整性与准确性。

3. 长文档处理方案：两阶段记忆-聚焦对话机制

对于长文档，直接截断会导致信息缺失，而一次性全文输入又容易造成注意力扩散。团队创新性地提出了两阶段记忆-聚焦式对话机制。

核心思想是：

在第一轮对话中模拟"长期记忆"，向模型植入全文背景
在第二轮只发送当前片段，引导其聚焦于局部内容进行QA提取

实现方式如下：

messages = [{"role": "user", "content": "请记住下面的技术文档..."},  # 全文记忆{"role": "assistant", "content": "已记住文档内容"},     # 响应确认{"role": "user", "content": "提取当前文档片段的QA问答对..."}  # 局部生成
]

处理流程总结：

将文档按句子分组（默认每组10句）
对每一组执行两阶段对话
合并所有分组的结果，形成最终QA库

这种方法不仅解决了上下文覆盖问题，还提高了模型在局部内容中的专注度与生成质量。

4. 系统详细实现

4.1 文本预处理流程

步骤	描述
HTML解析	使用BeautifulSoup提取class="main__doc"的正文内容
句子分割	按照中文标点（句号、问号等）进行分句，并过滤空白句
动态分组	默认每组10个句子，若某组不足5句则合并至前一组

4.2 统一输出格式

系统采用标准化JSON格式输出：

{"Summary": "介绍活字格的布局类型及特点","PossibleQA": [{"Question": "活字格支持哪些布局方式？","Answer": "支持响应式布局、固定布局等三种方式"}]
}

4.3 JSON提取与错误处理

为应对模型生成JSON时的格式错误，系统设计了多层容错机制：

def extract_qa_object(response):try:# 尝试提取标准JSON块json_block = extract_json_block(response)if json_block:return json.loads(json_block)# 尝试将响应全文当做JSONreturn json.loads(response)except json.JSONDecodeError:# 使用正则表达式手动匹配return regex_extract_qa(response)except Exception as e:logger.error(f"Error extracting QA: {e}")return {"Summary": "", "PossibleQA": []}

5. 功能扩展与工程实践

5.1 扩展功能

摘要生成：每个分组生成简洁摘要，存入向量数据库payload字段
答案扩展：对关键QA对生成更详细解释，用于前端展示
同义问法扩增：为每个问题生成多种表述，提升检索召回率

5.2 工程建议

参数	推荐值
模型选择	至少70B参数规模（如Qwen2.5-72B）
Temperature	0.7（平衡创造性与严谨性）
Top-P	0.7（控制输出多样性）
最大token数	≥2048（保证输出长度）

注意事项：小模型易产生幻觉，建议在QA质量评估中加入人工抽检。本项目的整体错误率控制在5%~10%。

6. 应用案例与效果

以下是一个完整的处理流程示例：

# 输入文档
doc = "活字格支持三种布局方式...响应式布局会根据设备尺寸自动调整...固定布局保持像素级精确..."# 分组处理
groups = split_text_into_sentence_groups(doc)# QA生成
generator = QAGenerator()
result = generator.generate_by_groups(doc, groups)# 输出结果
{"Summary": "介绍活字格的布局类型及特点","PossibleQA": [{"Question": "活字格支持哪些布局方式？","Answer": "支持响应式布局、固定布局等三种方式"},{"Question": "响应式布局有什么特点？","Answer": "会根据设备尺寸自动调整"}]
}