当前位置: 首页 > news >正文

Langchain的向量存储 - Document示例代码里的疑问

文章目录

  • 前言
  • 一、语句分析
  • 二、 举例解释
  • 三、 完整代码
  • 总结


前言

之前的代码里有下面这句话,可能有看不明白的读者。

vectors = [embeddings.embed(doc.page_content) for doc in docs]

今天一起来看下这句话。

一、语句分析

这句话实际上是一个列表推导式,它的作用是遍历 docs 列表中的每个 Document 对象,并将每个 Document 对象的 page_content 属性通过 embeddings.embed 方法转换为向量,然后将所有这些向量组成一个新的列表 vectors

具体的步骤如下:

  1. 遍历 docs 列表for doc in docs 表示依次取出 docs 列表中的每个 Document 对象并赋值给 doc
  2. 提取 page_content:对于每个 Document 对象 doc,提取其 page_content 属性(即文档的文本内容)。
  3. 嵌入转换:将提取到的文本内容通过 embeddings.embed 方法转换为向量。embeddings.embed(doc.page_content) 返回的是一个向量表示。
  4. 生成向量列表:将所有转换得到的向量组成一个新的列表,并将该列表赋值给 vectors 变量。

这句话不会替换原来的 doc 值,而是生成一个新的向量列表。每个向量对应于 docs 列表中每个 Document 对象的 page_content 的向量表示。

二、 举例解释

假设我们有以下 docs 列表:

docs = [Document(page_content="Machine learning is a method of data analysis.", metadata={"title": "ML Intro"}),Document(page_content="LangChain is a powerful framework.", metadata={"title": "LangChain Overview"})
]

执行这句代码后:

vectors = [embeddings.embed(doc.page_content) for doc in docs]

假设 embeddings.embed 方法将文本转换为一个简单的数值向量,那么 vectors 可能是:

vectors = [[0.1, 0.2, 0.3, 0.4],  # 向量表示 "Machine learning is a method of data analysis."[0.5, 0.6, 0.7, 0.8]   # 向量表示 "LangChain is a powerful framework."
]

三、 完整代码

以下是一个完整的示例,展示了从文档到向量转换的过程,大家可以一起练一练:

from langchain_core.documents import Document
from langchain.embeddings import OpenAIEmbeddings# 创建文档对象列表
docs = [Document(page_content="Machine learning is a method of data analysis.", metadata={"title": "ML Intro"}),Document(page_content="LangChain is a powerful framework.", metadata={"title": "LangChain Overview"})
]# 初始化嵌入模型
embeddings = OpenAIEmbeddings()# 将文档内容转换为向量
vectors = [embeddings.embed(doc.page_content) for doc in docs]# 输出向量列表
for i, vector in enumerate(vectors):print(f"Vector for doc {i+1}: {vector}")

总结

这句话的主要目的是将每个 Document 对象的文本内容转换为向量,并将所有这些向量组成一个新的列表 vectors,方便后续的向量存储和检索操作。它不会修改原来的 Document 对象,而是生成一个新的向量列表。

http://www.lryc.cn/news/368400.html

相关文章:

  • Docker 教程-介绍-2
  • 【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 伐木工(200分) - 三语言AC题解(Python/Java/Cpp)
  • UltraScale+系列模块化仪器,可以同时用作控制器、算法加速器和高速数字信号处理器
  • Python与其他编程语言(如Java、C++)相比有哪些优势?
  • Edge浏览器双击关闭标签页,双击关闭浏览器选项卡
  • C++ 贪心算法——跳跃游戏、划分字母区间
  • 汽车数据应用构想(三)
  • 体素技术在AI绘画中的革新作用
  • Leetcode.866 回文质数
  • 【论文阅读】Point2RBox (CVPR’2024)
  • 深度学习的点云分割
  • 【知识点】c++模板特化
  • 算法家族之一——二分法
  • 【深度学习】PuLID: Pure and Lightning ID Customization via Contrastive Alignment
  • Elastic 8.14:用于简化分析的 Elasticsearch 查询语言 (ES|QL) 正式发布
  • C语言指针与数组的区别
  • springboot3一些听课笔记
  • 【小沐学Python】Python实现Web服务器(CentOS下打包Flask)
  • Cesium开发环境搭建(一)
  • 视频、图片、音频资源抓取(支持视频号),免安装,可批量,双端可用!
  • FreeRTOS实时系统 在任务中增加数组等相关操作 导致单片机起不来或者挂掉
  • CentOS 7基础操作08_Linux查找目录和文件
  • CI/CD实战面试宝典:从构建到高可用性的全面解析
  • NLP实战入门——文本分类任务(TextRNN,TextCNN,TextRNN_Att,TextRCNN,FastText,DPCNN,BERT,ERNIE)
  • MySQL: 表的增删改查(基础)
  • WDF驱动开发-PNP和电源管理(三)
  • Redis集群和高可用性:保障Redis服务的稳定性
  • C# WPF入门学习主线篇(二十一)—— 静态资源和动态资源
  • 出现 Navicat 和 Cmd 下SQL 版本 | 查询不一致的解决方法
  • 31、matlab卷积运算:卷积运算、二维卷积、N维卷积