当前位置: 首页 > article >正文

构建一个“论文检索 + 推理”知识库服务,支持用户上传 PDF/LATEX 源码后,秒级检索并获得基于内容的问答、摘要、引用等功能

文章目录

    • 1 总体目标 / Overall Goal
    • 2 数据管线 / Data Pipeline
    • 3 检索策略 / Retrieval Strategy
    • 4 服务切分 / Service Decomposition
    • 5 Agent & Prompt 设计 / Agent & Prompt
    • 6 核心功能 / Core Features
    • 7 评测与监控 / Evaluation & Monitoring
    • 8 面试亮点 / Interview Selling Points


1 总体目标 / Overall Goal

ZH:构建一个“论文检索 + 推理”知识库服务,支持用户上传 PDF/LATEX 源码后,秒级检索并获得基于内容的问答、摘要、引用等功能。
EN: Build a “paper-RAG” service where users upload PDF/LaTeX, then get sub-second search plus content-grounded QA, summaries, and citations.


2 数据管线 / Data Pipeline

阶段关键动作 (ZH)Key Steps (EN)
采集S3/GCS 触发 RAGFlow ingestTrigger ragflow ingest on S3/GCS events
解析① PDF→markdown ② LaTeX→AST→markdown;补 bib 引用Parse PDF→md; LaTeX→AST→md; keep bib entries
分块400–800 tokens;公式单独切块并转为 $\LaTeX$ 字符串Chunk 400–800 tokens; isolate formulas
元数据title, authors, year, doi, venue, sec_titleRich metadata for filters
嵌入MCP-Embed service;BGE-Large-zh-v1.5 for CN/EN;可热插入 MiniLM、Llama-EmbedMCP-Embed; hot-swappable embedders
索引Infinity DB:Dense + BM25,enable_hybrid=trueHybrid index in Infinity DB

3 检索策略 / Retrieval Strategy

ZH

  1. Stage-1 召回
    • BM25:速命中关键词(算法名、公式编号)。
    • Dense:Cosine k=40 捕获语义同义。
  2. 融合score = 0.3·BM25 + 0.7·Dense,动态调参。
  3. 精排:BGE-Reranker-v2;如 GPU 紧张降为 MiniLM-L6。

EN

  1. Recall via BM25 & dense cosine (k = 40).
  2. Score fusion with 0.3 / 0.7 weights (tunable).
  3. Re-rank top-50 using BGE-Reranker-v2 (fallback MiniLM).

4 服务切分 / Service Decomposition

微服务作用 (ZH)Latency SLAEndpoint
MCP-Embed文本→向量≤ 20 ms/embed
MCP-SearchHybrid 检索+精排≤ 60 ms/search
MCP-Memory用户长/短期 KV≤ 5 ms/memory/{uid}
MCP-Summarise论文长文摘要≤ 3 s (async)/summarise

5 Agent & Prompt 设计 / Agent & Prompt

SYSTEM: 你是论文助手,只能基于检索结果回答。
TOOLS:search_papers(query:str, top_k:int=20)cite(paper_id:str, span:str)
CONTEXT:
{retrieved_chunks}
QUESTION:
{user_query}
GUIDELINES:
1. 如需更多资料务必调用 search_papers。
2. 引用时用 (Author, Year) 并列出 span。
  • 多轮 Function Calling:模型看不到答案→触发 search_papers→检索结果以 function 消息注入→模型生成最终答复。
  • Memory 写回:把对话摘要、兴趣主题存 MCP-Memory,下轮预填。
  • Chunk 过长:先走 LLM map-reduce 压缩,保证 < 8 K tokens 上下文。

6 核心功能 / Core Features

  1. 语义搜索 / Semantic Search
  2. 基于内容的问答 (RAG-QA)
  3. 自动摘要 & 中英对照翻译
  4. 引用追踪 (click-to-source spans)
  5. 相似论文推荐(Dense Only 模式)

7 评测与监控 / Evaluation & Monitoring

指标工具频率
nDCG@10 (BEIR-SciDocs)nightly auto-eval每晚
Faithfulness (QAG)Prompt-ed Llama-3 judge每晚
Latency P95Prometheus + Grafana实时
GPU 使用率NVML exporter实时

8 面试亮点 / Interview Selling Points

ZH

  • 端到端视角:能说清数据→检索→Agent→监控整链路。
  • 可替换组件:Embed/Rerank/LLM 全部热插拔,体现工程弹性。
  • 效能权衡:给出双检索、融合权重、GPU 回退策略,说明你懂成本。

EN

  • E2E vision: articulate full pipeline from ingestion to monitoring.
  • Pluggability: swap embedders, rerankers and LLMs—design for change.
  • Cost-latency trade-offs: hybrid search, dynamic weights, GPU fallback.

总结 / Wrap-up
我会先用 RAGFlow 搭建混合索引,MCP 服务封装嵌入与检索,Agent 通过 Function Calling 串起工具,实现秒级论文检索及推理;再用监控与评测闭环调优。这样既满足现阶段功能,也给后续模型或业务升级留足弹性。

http://www.lryc.cn/news/2392900.html

相关文章:

  • VLC-QT 网页播放RTSP
  • for(auto a:b)和for(auto a:b)的区别
  • 第2章-12 输出三角形面积和周长(走弯路解法)
  • Caddy如何在测试环境中使用IP地址配置HTTPS服务
  • shell中与>和<相关的数据流重定向操作符整理
  • 【航天远景 MapMatrix 精品教程】08 Pix4d空三成果导入MapMatrix
  • 创建型设计模式之Prototype(原型)
  • JNI开发流程
  • STM32G4 电机外设篇(二) VOFA + ADC + OPAMP
  • RAG应用:交叉编码器(cross-encoder)和重排序(rerank)
  • 微服务难题?Nacos服务发现来救场
  • C# 结合PaddleOCRSharp搭建Http网络服务
  • 【连接器专题】SD卡座规格书审查需要审哪些方面?
  • JS手写代码篇---手写节流函数
  • UE5 C++动态调用函数方法、按键输入绑定 ,地址前加修饰符
  • eBest智能价格引擎系统 助力屈臣氏饮料落地「价格大脑」+「智慧通路」数字基建​
  • ubuntu mysql 8.0.42 基于二进制日志文件位置和GTID主从复制配置
  • Kettle 远程mysql 表导入到 hadoop hive
  • 完整解析 Linux Kdump Crash Kernel 工作原理和实操步骤
  • 菜鸟之路Day36一一Web开发综合案例(部门管理)
  • LangChain实战:MMR和相似性搜索技术应用
  • 第 1 章:学习起步
  • SQL查询——大厂面试真题
  • Linux-pcie ranges介绍
  • ⭐ Unity AVProVideo插件自带播放器 脚本重构 实现视频激活重置功能
  • 互联网大厂Java求职面试:云原生微服务架构设计与AI大模型集成实战
  • 详解K8s API Server 如何处理请求的?
  • 微调数据处理
  • ✨1.1.1 按位与运算替代求余运算优化场景
  • 解决开发者技能差距:AI 在提升效率与技能培养中的作用