当前位置：首页 > news >正文

IBM RAG 挑战赛挑战赛冠军 RAG_Challenge 系统性理解

news 2025/6/28 10:32:33

一、整体架构与核心流程

RAG_Challenge 项目是一个典型的“检索增强生成（RAG）”系统，旨在将非结构化的 PDF 年报等文档，通过一系列自动化流程，转化为可高效检索、可结构化问答的知识库，并结合大模型（LLM）实现高质量自动问答。其核心流程包括：

负责将原始 PDF 文档批量解析为结构化 JSON，利用 docling 库实现 OCR、表格结构识别、页码规整等。支持单进程和多进程两种模式，适合大规模数据处理。

对解析出的表格进一步序列化，调用 LLM 结合上下文生成“上下文无关”的信息块，极大提升表格数据的可检索性和复用性。

对解析后的 JSON 进行规整与清洗，合并分块、修正特殊符号、插入表格描述，输出结构化、可读性强的文本，为后续分块和检索做准备。

实现报告文本的分块（chunking），支持按页分块、表格内容插入、token 统计等，为向量化和检索提供高质量片段。

构建两类检索索引：BM25（关键词）和向量（faiss），支持大规模批量处理，兼容多种嵌入模型（如 DashScope）。

实现三种检索器：BM25Retriever、VectorRetriever、HybridRetriever。支持关键词、语义、混合检索，兼容多 provider，灵活适配不同场景，作者最终使用HybridRetriever混合检索

封装了 OpenAI、IBM、Gemini、DashScope 等主流 LLM API 的调用逻辑，统一接口，支持结构化输出、token 计费、异常重试等。APIProcessor 作为统一入口，自动路由到对应 provider。

实现高效、健壮的 API 并发请求处理，支持流式读取、限流、自动重试和错误日志，适合大规模嵌入/生成任务。

实现两种重排器：JinaReranker（多语言API）、LLMReranker（大模型相关性重排）。支持单条/批量重排、分数融合、多线程处理，极大提升检索结果与查询的相关性。

作为问答主流程“大脑”，负责问题解析、检索调度、重排、prompt 构建、LLM 调用、答案格式化等。支持单公司/多公司比较、断点续存、并行处理等复杂场景。

集中管理所有 LLM 调用的 prompt，包括 system prompt、user prompt、pydantic schema 及示例。支持多任务类型（如数值、布尔、名单、比较、重排等），保证输出风格和结构一致，便于 prompt 工程和调优。

数据准备：PDF → 解析（pdf_parsing）→ 规整（parsed_reports_merging）→ 表格序列化（tables_serialization）
知识库构建：分块（text_splitter）→ 索引构建（ingestion）
问答流程：问题解析（questions_processing）→ 检索（retrieval）→ LLM重排（reranking）→ prompt 构建（prompts）→ LLM 调用（api_requests）→ 答案输出
并发与批量：大规模任务通过 api_request_parallel_processor 实现高效分发与限流