当前位置: 首页 > news >正文

[GraphRAG]完全自动化处理任何文档为向量知识图谱:AbutionGraph如何让知识自动“活”起来?

在当今信息爆炸的时代,企业和研究人员面对大量非结构化文档时,如何高效地提取、存储和查询其中的知识,已成为一个核心挑战。传统的关键词检索早已无法满足深层次语义关联和智能问答的需求。

每天面对成百上千份PDF论文、Excel报告、行业白皮书,你是否也曾陷入这样的困境:

  • 想找某篇文献中提到的“钙钛矿氧化物磁性研究”,却要在数十个文件夹里逐个检索?
  • 明明记得A技术与B材料有关联,却翻遍文档也找不到具体关联证据?
  • 团队积累的核心知识散落在各种文档中,新人上手要花数月才能理清脉络?

今天,我们要介绍的AbutionGraphRag自动化工具,正在重新定义知识处理的逻辑——它能将任何格式的文档一键转化为“会思考”的向量知识图谱,让分散的信息变成结构化的智慧,让隐性的关联自动浮出水面。

一、核心功能:从文档到知识图谱的端到端自动化

该工具集成了小模型文档识别、多模态大模型与向量图数据库,实现了无人值守的文档解析和知识提取流程:

1. 多格式文档解析:把任何文件“拆”成结构化内容

支持PDF、Word等多种格式,利用OCR和深度学习模型自动提取文本、表格、图片中的内容,并统一转换为结构化的Markdown格式,为后续知识抽取奠定基础。

关键能力

  • 保留文档层级(章节→段落→实体),确保知识上下文不丢失;
  • 支持非文本元素(如图表、公式)的识别与关联(例如将“图1.2 稀土元素周期表”与相邻分析文本绑定)。 AbutionRag智能文档解析

2. 智能知识提取:让机器像领域专家一样“读”懂内容

基于大语言模型可识别通用的实体关系,通过自定义抽取规则:附加提示词(Prompt Engineering)和示例引导(Few-shot Learning),可从行业文档中精准抽取实体、属性以及实体间的语义关系,确保符合领域需求。

示例配置

# 提示词:控制提取规则(如“不改写原文、保留实体属性”)
ADDITIONAL_PROMPT = """使用原文进行提取,不要改写或重复提取实体。为每个实体提供有意义的属性以增加上下文。"""# 示例数据:引导模型按领域规范提取(如区分“人物”“情感”实体)
EXAMPLES = [{"input": "Romeo... Juliet is the sun.","output": {"entities": [{"vertex": "Romeo", "label": "PERSON", "properties": {"emotional_state": "wonder"}},{"vertex": "Juliet", "label": "PERSON", "properties": {"emotional_state": "joy"}}],"relation": [{"source": "Romeo", "target": "Juliet", "label": "LOVE"}]}}
]

效果展示
在处理稀土领域的专业材料学论文时,

  1. 实体关系精准识别:能精准识别“La0.65Ca0.35MnO3”(钙钛矿锰氧化物)、“NH3-SCR”(选择性催化还原技术)等专业术语,并提取“掺杂Ni²⁺影响磁性”等深层关系。

  2. 保持上下文关系:以原文的章节段落顺序保持上下文连接,并为后续保存为图谱关系。

  3. 复杂结构的关联识别:如下结果所示,文本和公式被提取为不同的类型(Text、Formulas),但实体识别结果保留了上下文的内容连贯性,能根据上下文为公式进行摘要解释,能从上下文为公式中的实体关系做出属性解释。

    {"paragraphs": [{"type": "Text","original": "样品在相对较 高的温度范围内表现出顺磁性, 随着温度的降低, 样品的磁性将从顺磁性变为铁磁性, 在居里温度 T C ( x =0 ) =243 K , T C ( x =0.1 ) =238 K , T C ( x =0.3 ) =105 K 时, 样品 磁性主要表现为铁磁性。 通过 VESTA 软件计算出 样品 x =0 , 0.1 , 0.3 时所对应的 Mn-O-Mn 键角分别 是 169.9205° , 158.8492° , 108.5978° , 可知随着 Ni 的掺杂, 使得 Mn-O-Mn 键角减小, 进而使样品发 生更加强烈的晶格畸变, 减少了 Mn3+ 和 Mn4+ 之间双 交换相互作用[ 14 ] , 导致居里温度降低, 磁化强度减 小。 由于铁磁性和反铁磁性之间的竞争导致样品的 ZFC 曲线和 FC 曲线在较低温区出现了明显的分叉 现象, 表现出可能存在的团簇自旋玻璃行为[ 15-16 ] 。\n\n0.05 T\n\nLa\n\nCa\n\nMn\n\nNi\n\nO\n\n在 磁场下, 多晶样品 0.65 0.35 1x x 3 的 χT -T 曲线如图 3 所示, 未掺杂样品的值随温度 降低而增大, 大约在 216 K 附近达到最大, 而后迅 速减小, 可知奈尔温度为 T N ( x =0 ) =216 K , 样品低于 此温度表现出反铁磁性。 这与之前分析结果相符。 并且可知, Ni 掺杂后样品的奈尔温度分别为 T N ( x =0.1 ) = 215 K , T N ( x =0.3 ) =80 K , 与未掺杂样品的奈尔温度相 比较而降低。 根据反应机理, Ni2+ 部分取代 Mn3+ 离 子导致 Mn3+/Mn4+ 比值发生变化[ 17 ] 。 这样就使 DE 相 互作用减弱, 进而使 T C 和磁矩减小。\n\n4\n\nLa\n\nCa\n\nMn\n\nNi\n\nO\n\n=0\n\n0.1\n\n0.3\n\n图 为 0.65 0.35 1x x 3 ( x , , )在 0.05 T 下的 χ -1T 曲线, 以及对样品 χ -1T 曲线进行 的 Curie -Weiss 拟合, 拟合公式为[ 18 ] :\n\nT\n\n= C /\n\nT -\n\n1","index": 1,"title": "钙钛矿氧化物La0.65Ca0.35MnO3掺杂Ni后的磁性变化","abstracts": "本段落介绍了La0.65Ca0.35MnO3钙钛矿氧化物在不同Ni掺杂量下的X射线衍射图谱和磁化曲线。通过实验数据,发现掺杂Ni后样品的居里温度和奈尔温度降低,磁矩减小,表现出强烈的晶格畸变。","entities": [{"vertex": "La0.65Ca0.35MnO3", "label": "CHEMICAL_COMPOUND", "properties": {"structure": "Pbnm立方钙钛矿结构"}},{"vertex": "Ni", "label": "ELEMENT", "properties": {"doping_effect": "导致Mn-O-Mn键角减小,晶格畸变增强"}},{"vertex": "X射线衍射图谱", "label": "EXPERIMENTAL_TECHNIQUE", "properties": {"purpose": "验证样品的单相性和晶体结构"}}],"relation": [{"source": "La0.65Ca0.35MnO3", "target": "X射线衍射图谱", "label": "ANALYSIS_METHOD", "properties": {"result": "未观察到明显的杂质峰,样品具有良好的单相性"}},{"source": "La0.65Ca0.35MnO3", "target": "Ni", "label": "DOPING", "properties": {"effect": "使居里温度和奈尔温度降低,磁矩减小"}},{"source": "Mn-O-Mn键角", "target": "晶格畸变", "label": "CAUSE_EFFECT", "properties": {"description": "随着Ni掺杂量增加,Mn-O-Mn键角减小,晶格畸变增强"}}]},{"type": "Formulas","original": "\\nu ( T ) = \\mathcal { A } / ( T","index": 2,"title": "钙钛矿氧化物La0.65Ca0.35MnO3掺杂Ni后的磁性变化","abstracts": "本段介绍了钙钛矿氧化物La0.65Ca0.35MnO3在不同Ni掺杂浓度下的磁性行为。通过X射线衍射图谱和磁化曲线分析,发现样品具有良好的单相性,并且随着Ni掺杂量的增加,居里温度和奈尔温度降低,Mn-O-Mn键角减小,导致晶格畸变加剧,双交换相互作用减弱。","entities": [{"vertex": "La0.65Ca0.35MnO3", "label": "MATERIAL", "properties": {"composition": "La0.65Ca0.35MnO3", "structure": "Pbnm立方钙钛矿结构"}},{"vertex": "Ni", "label": "ELEMENT", "properties": {"role": "掺杂元素", "effect": "减少Mn3+和Mn4+之间的双交换相互作用"}},{"vertex": "Tc", "label": "PHYSICAL_QUANTITY", "properties": {"definition": "居里温度", "values": "243 K (x=0), 238 K (x=0.1), 105 K (x=0.3)"}}],"relation": [{"source": "La0.65Ca0.35MnO3", "target": "Ni", "label": "DOPING", "properties": {"description": "Ni掺杂到La0.65Ca0.35MnO3中"}},{"source": "Ni", "target": "Mn-O-Mn键角", "label": "AFFECTS", "properties": {"description": "Ni掺杂使得Mn-O-Mn键角减小"}},{"source": "Mn-O-Mn键角", "target": "Tc", "label": "INFLUENCES", "properties": {"description": "Mn-O-Mn键角减小导致居里温度降低"}},{"source": "La0.65Ca0.35MnO3", "target": "Tc", "label": "HAS_PROPERTY", "properties": {"description": "La0.65Ca0.35MnO3在不同Ni掺杂浓度下表现出不同的居里温度"}}]},{"type": "Text","original": "式中: C 为居里常数, θ 为居里外斯温度, 由居里外 斯拟合得出, 3 个样品的居里外斯温度分别为 270 , 268 , 179 K , 且由图可知, 3 个样品分别在 230~270 K , 207~268 K , 97~179 K 温区内表现出向上背离居","index": 3,"title": "居里外斯温度与样品磁性分析","abstracts": "通过居里外斯拟合得出三个样品的居里外斯温度分别为270 K、268 K和179 K。样品在不同温区表现出向上背离居里外斯行为。","entities": [{"vertex": "居里常数", "label": "PARAMETER", "properties": {"description": "用于描述物质磁性的参数"}},{"vertex": "居里外斯温度", "label": "PARAMETER", "properties": {"description": "通过居里外斯拟合得出的温度值,表示材料从顺磁性转变为铁磁性的临界温度"}},{"vertex": "钙钛矿锰氧化物La0.65Ca0.35MnO3", "label": "MATERIAL", "properties": {"description": "一种具有特定化学组成的钙钛矿结构材料"}}],"relation": [{"source": "居里常数", "target": "居里外斯温度", "label": "CALCULATION_PARAMETER", "properties": {"description": "居里常数是计算居里外斯温度时使用的参数之一"}},{"source": "钙钛矿锰氧化物La0.65Ca0.35MnO3", "target": "居里外斯温度", "label": "PROPERTY_OF", "properties": {"description": "钙钛矿锰氧化物La0.65Ca0.35MnO3的居里外斯温度是其磁性性质的一部分"}},{"source": "居里外斯温度", "target": "270 K, 268 K, 179 K", "label": "VALUE_OF", "properties": {"description": "居里外斯温度的具体数值,分别对应于三个不同的样品"}}]},...
    }
    

3. 向量图谱构建:给知识“装上导航系统”

抽取的知识会自动存入AbutionGraph图数据库。AbutionGraph不仅存储拓扑关系,还支持多粒度向量嵌入(实体、段落、章节、全文级别),为后续的语义搜索和社区发现提供支持。
AbutionGraph构建RAG向量图谱知识库内部逻辑图
AbutionGraph提供了一套创新的全自动的非结构化数据治理方案,专注于构建高效、高质量、智能的本地知识库。
本地知识库构建: 从 数据接入 -> LLM企业数据问答 ,过程0人工,0知识构建成本,0开发,数据解析完立即可用。

4. 社区发现:自动“聚类”隐藏的知识主题

集成Leiden社区发现算法,自动识别知识图谱中潜在的主题社区或概念集群,形成社区摘要和社区成员语义融合,揭示文档集中隐藏的知识结构。
AbutionRAG社区检测结果展示
优势:支持增量计算,适合持续增长的文档库,新增文档时无需重新处理历史数据,大幅降低更新成本。

5. 多维度智能检索:想要的知识“一搜即得”

基于构建好的向量知识图谱,工具提供3种核心检索方式,满足不同场景需求:

检索方式适用场景示例效果
实体相似检索找相关概念/术语搜索“钙钛矿”,返回“La0.65Ca0.35MnO3”“SrTiO3”等相关材料及相似度
关系网络检索查实体间的关联搜索“稀土精矿与脱硝性能”,返回“稀土精矿→球磨酸浸→催化剂→提升脱硝性能”的完整关系链
流式智能问答自然语言提问(RAG)提问“La0.65Ca0.35Mn1-xNixO3如何制备?”,返回结合多篇文献的步骤总结

代码示例

# 检索最相关6个知识点
query_text = "福建省龙岩市长汀县河田镇的地理与气候特征是怎样"
response = rag_driver.search(text=query_text, top_k=6)# 流式问答:实时返回答案(边生成边输出)
response = rag_driver.search_call(text="钙钛矿氧化物La0.65Ca0.35Mn1-xNixO3的制备及表征",top_k=8,  # 返回前8个相关知识片段stream=True
)

相似节点检索结果示例

{'刈割': 0.50636005, '福建师范大学地理科学学院': 0.47888565, '等补偿': 0.45831108, 'ICP-MS': 0.36633873, '稀土元素': 0.3640747, '热液喷发物质': 0.35804176}

多维度检索结果示例

{'question': '福建省龙岩市长汀县河田镇的地理与气候特征是怎样','answer_vertex_sim': {'刈割': 0.50636005,'福建师范大学地理科学学院': 0.47888565,'等补偿': 0.45831108,'ICP-MS': 0.36633873,'稀土元素': 0.3640747,'热液喷发物质': 0.35804176},'vertex_entity': ['ICP-MS: {hll:4; desc:[\'{"用途":"测定稀土元素含量"}\']}','刈割: {hll:1; desc:[\'{"context":"实验操作"}\', \'{"type":"农业操作"}\', \'{"作用":"既伤害植物组织又促进植物生长"}\', \'{"效果":"打破吸收壁垒, 促进稀土吸收"}\']}','福建师范大学地理科学学院: {hll:3; desc:[\'{"类型":"大学院系"}\']}','...'],'vertex_relations': ['中印度洋盆地 → GC11: {weight:1.0}','中印度洋盆地岩心沉积物稀土元素富集特征及赋存矿物 → GC11: {}','中印度洋盆富稀土沉积物中稀土元素赋存特征研究 → GC11: {}','中印度洋盆岩心样品采集及特征描述 → GC11: {}','中印度洋盆岩心沉积物中稀土元素含量 → GC11: {}','中印度洋盆岩心沉积物中稀土元素赋存特征 → GC11: {}','中国大洋矿产资源研究开发协会( COMRA ) → GC11: {weight:1.0}','全矿物分析中GC04和GC11岩心样本的检测层次 → GC11: {}','岩心沉积物中矿物组成及含量差异 → GC11: {}','岩心沉积物矿物组成特征及分析方法 → GC11: {}','...'],'vertex_neighbors': ['GC04','GC11','HNO3-H2O2法','Super304钢','...'],'vertex_belong_chapters': ['##### 全矿物分析','##### 单矿物原位微区分析','##### 成矿的控制因素','....'],'vertex_belong_para_contexts': ['GC03、GC04和GC11岩心沉积物的主微量及稀土元素组成','GC04和GC11岩心沉积物中稀土元素含量特征','...'],'vertex_belong_chapter_contexts': ['# Ce 2 ( SO 4 ) 3 对铜电沉积层晶粒细化的作用研究','# Dy 13.60 Ni 3.34 In 3.06 合金磁相变与磁热性能研究','...']
}

二、API核心类详解:AbutionGraphRagDriver

AbutionGraphRagDriver 是这个自动化流程的核心驱动类,提供了简洁而强大的编程接口。

1. 初始化

仅需简单配置,即可进行文档处理成向量图谱并更新到知识库。

gdb_client = AbutionConnector("http://localhost:9090/rest")
# gdb_client.create_rag_graph("RareEarthPaper")
graph = gdb_client.Graph("RareEarthPaper")MODEL_CONFIGS = {"text": {    # 文本模型(仅处理文字对话)},"image": {    # 多模态模型(处理文本+图片)},"embed": {    # 向量模型(生成文本嵌入向量)}
}# 功能入口
rag_driver = AbutionGraphRagDriver(model_configs=MODEL_CONFIGS,      # 多模型配置(文本、视觉、嵌入)work_path="storage/",             # 工作目录,用于存储中间文件graph_instance=graph              # AbutionGraph连接实例
)
  • model_configs: 配置用于文本理解、视觉处理和向量嵌入的模型(例如通义千问Qwen系列)。
  • graph_instance: 已初始化的AbutionGraph连接器,是所有知识数据的目的地。
  • work_path: 处理过程中的中间文件(如解析后的Markdown、抽取的JSON等)会按文档存储在此目录下。
2. 核心方法
  • pipeline_to_knowledge(): 一站式管道方法。传入一个文件路径,即可自动完成上述所有步骤(解析、抽取、建图)。

    rag_driver.pipeline_to_knowledge(file_path="path/to/your/document.pdf",additional_prompt=ADDITIONAL_PROMPT,examples=EXAMPLES
    )
    
  • detect_communities(): 在构建好的图谱上执行社区检测,发现知识集群。

    rag_driver.detect_communities(increment=True,    # 增量计算entity_sim=0.5,    # 实体相似度阈值edge_sim=0.75      # 关系相似度阈值
    )
    
  • search()search_call(): 强大的检索功能。

    • search(): 返回结构化的知识结果,包括实体、关系和上下文信息。
    • search_call(): 在search()的基础上,将结果送入大模型进行总结和润色,直接生成流畅的问答结果,是开箱即用的RAG接口。

    支持多粒度检索

    您可以指定检索的粒度级别:

    # 可选粒度: ["实体级别", "段落级别", "章节级别", "文件级别", "超边级别", "超点级别"]result = rag_driver.search(text="查询内容",top_k=10,rag_type=["实体级别", "段落级别"]
    )
    

    支持子图隔离检索

    如果使用了classify_id创建了多个子图,可以指定检索范围:

    result = rag_driver.search(text="查询内容",top_k=10,classify_list=["ProjectA", "ProjectB"]  # 只在指定子图中检索
    )
    
3. 图查询语言

使用AbutionGraphRagDriver可以满足知识库构建、更新和检索的任务,当然您也可以使用AbutionGraph的原生图查询语言或者Cypher、Gremlin、GraphQL等图查询语言定制内容。
一跳节点查询示例:

    graph.V('稀土元素').BothV().exec()

一、什么是“向量知识图谱”?为什么它比传统知识库更强?

传统的文档管理工具,要么把文档当“文件”存(如文件夹),要么把内容当“字符串”搜(如关键词检索),但从未真正“理解”知识。而向量知识图谱的突破,在于它同时具备两种核心能力:

  • “关系脑”:像人类大脑一样记录实体间的关联(如“La0.65Ca0.35MnO3”与“磁性”的影响关系、“稀土精矿”与“脱硝性能”的因果关系);
  • “语义眼”:通过向量嵌入技术,让机器能“看懂”语义(比如自动识别“CeO2”与“氧化铈”是同一物质,即使文档中从未明说)。

这种“关系+向量”的双重特性,让知识不再是孤立的文字,而是能被检索、推理、关联的“活数据”。

三、什么是“向量知识图谱”?为什么AbutionGraph比传统向量检索知识库更强?

市面上知识图谱工具不少,但AbutionGraphRag的独特优势在于“全流程一体化+深度适配专业场景”:

1. 零代码门槛,却能深度定制

无需手动设计图谱结构、标注数据,基础流程“一键运行”;同时支持通过提示词、示例数据、相似度阈值等参数,精准适配科研、制造、金融等不同领域的知识特点。

2. 原生向量图数据库,性能碾压“拼凑方案”

AbutionGraph是“原生支持向量”的图数据库,无需额外对接向量库(如Milvus),避免数据同步问题。即使处理数十亿级实体关系,鉴于分布式特性,也能保持亚秒级检索响应。

3. 超图模型,轻松处理复杂知识

支持“超点”(如“某实验团队”作为一个整体节点)和“超边”(如“材料A+工艺B→性能C”的多实体关系),比传统图模型更自然地表达复杂知识(如科研协作网络、多因素影响关系)。

4. 多模态融合,不遗漏任何信息

不仅处理文本,还能解析文档中的图片、表格、公式,特别适合科研论文、技术手册等复杂文档——例如自动关联“XRD图谱”与对应的“物相分析结论”。

4. 语义计算 / 知识融合 / 动态知识更新

基于时序图谱自动聚合计算的特性,相同节点的实体属性可以自动聚合更新,且向量语义能够自动合并,实现效果:“女生”+“皇帝”=“女王”,这对于不断新增文档的知识库非常有用,因为相同的实体在跨文档中得到的信息大概率不同,语义合并能够丰富检索效果。

四、谁在需要AbutionGraphRag?

  • 科研人员:处理数百篇领域论文,自动生成“稀土材料研究脉络图”,将文献综述时间从“周级”压缩到“小时级”;
  • 企业知识库:将技术手册、故障案例、项目报告转化为可检索的知识图谱,新员工上手速度提升50%;
  • 智能客服:基于产品文档构建问答系统,精准回答“某型号设备的材料成分”“故障代码E102的解决步骤”等问题;
  • 金融风控:分析企业年报、舆情新闻,自动构建“公司-关联方-风险事件”图谱,提前预警传导风险;
  • 工作流/智能体:绑定Dify等AI智能体业务创新平台,实现更精准有效的知识检索环节。

结语:让知识从“沉睡”到“流动”

在这个信息过载的时代,真正的竞争力不是拥有多少文档,而是能从文档中快速提炼、关联、应用知识的能力。

AbutionGraphRag正在做的,就是让知识处理从“人工逐条整理”变成“机器自动构建”,从“关键词匹配”变成“语义深度理解”。

不妨试试这款工具——让你的文档知识不再沉睡,而是成为能检索、能推理、能创造价值的“活资产”。

👉 立即访问官网。

http://www.lryc.cn/news/627124.html

相关文章:

  • 我从零开始学习C语言(12)- 循环语句 PART1
  • word——如何给封面、目录、摘要、正文设置不同的页码
  • 非同步BUCK和同步BUCK
  • 8.20 打卡 DAY 47 注意力热图可视化
  • 创建Vue项目的不同方式及项目规范化配置
  • Preprocessing Model in MPC 2 - 背景、基础原语和Beaver三元组
  • Web网站的运行原理2
  • prometheus监控kubernetes集群并使用 grafana展示数据
  • Web 安全之延迟攻击(Delay Attack)详解
  • Windows 命令行:dir 命令
  • VG技术下,美术在资源制作时的规范
  • 读者写者问题
  • 深入理解C++ std::shared_ptr:现代C++内存管理的艺术与实践
  • Python文件操作与异常处理详解 :基础方法、注意事项及os模块常用功能
  • MySQL数据库安全配置核心指南
  • [激光原理与应用-316]:光学设计 - SolidWorks 、AutoCAD、Zemax三者的比较与协同
  • Python 数据可视化:Matplotlib 与 Seaborn 实战
  • 计算机网络--HTTP协议
  • Redis(以Django为例,含具体操作步骤)
  • 项目1其二(验证码、jwt)
  • Python如何将两个列表转化为一个字典
  • Spring Boot 实战:从项目搭建到部署优化
  • react state变化生命周期钩子
  • 【ansible】4.实施任务控制
  • VMware Workstation | 安装Ubuntu20.04.5
  • Linux基础介绍-3——第一阶段
  • 领码方案:通用物联网数据采集低代码集成平台——万物智联时代的黄金钥匙
  • 解决 nginx: [warn] “ssl_stapling“ ignored, issuer certificate not found 报错
  • 计算机视觉 图片处理 在骨架化过程中,每次迭代都会从图像的边缘移除一层像素,直到只剩下单像素宽度的骨架
  • RAG优化进阶 - LinkAI智能体平台的知识库落地实践