【笔记】Handy Multi-Agent Tutorial 第四章: CAMEL框架下的RAG应用 (简介)
正文详见:Handy Multi-Agent Tutorial - 飞书云文档https://fmhw1n4zpn.feishu.cn/docx/AF4XdOZpIo6TOaxzDK8cxInNnCe
4.1 RAG的组件介绍
4.1.1 RAG简介
检索增强生成RAG(Retrieval-Augmented Generation)是一种通过从外部资源获取事实来提高生成式AI模型准确性和可靠性的技术。
将生成式AI服务与外部资源相连,特别是那些富含最新技术细节的资源。
4.1.2 Loaders
Loaders是CAMEL框架中用于数据加载和预处理的模块。
引入了两个 IO 模块:Base IO 和 Unstructured IO
Base IO
专注于读取各种格式的文件,提取其内容,并将其表示为 File 对象。
Unstructured IO
解析文件或URL、清洗数据、提取特定信息、为不同平台准备数据元素以及对数据进行分块处理。
4.1.3 Embeddings
为不同类型的数据(文本、图像、视频)创建嵌入的过程,是将这些输入转化为机器能够理解和高效处理的数值形式。
4.1.4 Storages
负责数据的存储与管理
4.1.5 Retrievers
专门用于在大量文本中高效查找特定信息。
Retrievers 模块支持两种主要的检索方式:向量检索和关键词检索
向量检索
在存储系统中寻找最接近的匹配向量。
关键词检索
解析用户的查询关键词并匹配相应的文档内容。
4.2 向量数据库介绍
用于存储和检索高维向量数据的数据库系统。
-
向量存储: 支持存储大量高维向量数据,通常还关联其他元数据。
-
相似度搜索: 实现高效的近似最近邻(Approximate Nearest Neighbor,ANN)搜索,快速找到与查询向量最相似的向量。
-
扩展性: 设计用于处理大规模数据,支持水平扩展以满足增长的存储和计算需求。