全网最简单的GraphRAG讲解,包你懂
一、什么是 GraphRAG?
GraphRAG(基于图的检索增强生成)是在传统 RAG 方法的基础上,引入了图数据结构的新型方法。它利用大语言模型的强大自然语言理解能力,从非结构化文本中抽取实体和关系,构建知识图谱,并将其用于增强生成任务。
一文看懂GraphRAG:蚂蚁集团联合各所名校出品GraphRAG综述
二、GraphRAG 的改进之处
GraphRAG 通过引入图结构,使得知识的组织和检索更高效,生成的答案更准确。具体体现在:
- 更好地组织知识: 以节点和边的形式表示实体和关系,清晰直观。
- 提高检索效率: 通过图检索,快速定位相关信息。
- 增强生成质量: 提供更丰富的上下文,提高答案的相关性和准确性。
三、构建图的流程
在构建图的过程中,大模型起到了关键的作用,生成图需要的信息就是由大模型提取的
信息抽取: 自动识别文本中的实体(节点)和关系(边)。
自然语言理解: 处理复杂的语言现象,如指代关系、同义词、歧义等。
使用的提示词: 引导模型完成信息抽取任务
构建图数据结构:创建节点和边,添加属性。
导入图数据库:使用如 Neo4j 等图数据库存储。
下面是构建图的案例,假设我们有以下文本:
“马云是阿里巴巴的创始人,他于1999年在杭州创立了阿里巴巴集团。这家公司后来发展成为全球最大的电子商务公司之一。”
1. 提示词设计
请从以下文本中提取所有的实体和它们之间的关系。对于每个关系,以三元组的形式呈现:(实体1,关系,实体2)。文本如下:“马云是阿里巴巴的创始人,他于1999年在杭州创立了阿里巴巴集团。这家公司后来发展成为全球最大的电子商务公司之一。”请注意处理代词和指代关系。
2. 大模型的输出
(马云,创立,阿里巴巴集团)
(阿里巴巴集团,成立时间,1999年)
(阿里巴巴集团,位于,杭州)
(阿里巴巴集团,是,全球最大的电子商务公司之一)
3. 解析大模型的输出
实体识别:
- 马云
- 阿里巴巴集团
- 1999年
- 杭州
- 全球最大的电子商务公司之一
关系识别:
- 马云 【创立】 阿里巴巴集团
- 阿里巴巴集团 【成立时间】 1999年
- 阿里巴巴集团 【位于】 杭州
- 阿里巴巴集团 【是】 全球最大的电子商务公司之一
4. 转换为图数据库信息
创建节点(Nodes):
- 马云(类型:人物)
- 阿里巴巴集团(类型:公司)
- 1999年(类型:时间)
- 杭州(类型:地点)
- 全球最大的电子商务公司之一(类型:描述)
创建边(Edges):
- (马云) 【创立】 → (阿里巴巴集团)
- (阿里巴巴集团) 【成立时间】 → (1999年)
- (阿里巴巴集团) 【位于】 → (杭州)
- (阿里巴巴集团) 【是】 → (全球最大的电子商务公司之一)
导入图数据库:
使用 Neo4j 等图数据库,将节点和边导入,建立知识图谱。
通过上面的流程,我们就完成了图的创建,至于后续的检索,应该大家就好理解了。