当前位置: 首页 > news >正文

langchain Chroma 构建本地向量数据库

langchain Chroma 构建本地向量数据库

# import
from langchain_community.document_loaders import TextLoader
from langchain_community.embeddings.sentence_transformer import (SentenceTransformerEmbeddings,
)
from langchain_community.embeddings import HuggingFaceEmbeddings 
from langchain_community.vectorstores import Chroma
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders.word_document import Docx2txtLoaderimport glob
import os# 数据库路径
db_dir = "./db"
# 文档路径
source_directory = "./docs"
# 文件后缀
file_ext = '*.docx'# create the open-source embedding function
# embedding_function = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
# 使用中文嵌入层编码器
ebd_function = HuggingFaceEmbeddings(model_name="shibing624/text2vec-base-chinese")def add_files_to_db(filepath:str="",file_ext:str=""):docx_files = glob.glob(os.path.join(source_directory, file_ext))text_list=[]for file_name in docx_files:print(file_name)loader = Docx2txtLoader(file_name)documents = loader.load()text_list.extend(documents)# split it into chunkstext_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)docs = text_splitter.split_documents(text_list)# load it into Chromadb = Chroma.from_documents(docs, ebd_function, persist_directory=db_dir)# save db to diskdb.persist()def query_db(db:Chroma,query:str=""):# query itdocs = db.similarity_search(query)# print resultsprint(docs[0].page_content)print("-----------------------------------------")if __name__=="__main__":# 只需执行一次# add_files_to_db(source_directory,file_ext)db = Chroma(persist_directory=db_dir,embedding_function=ebd_function)query = "怎么治疗骨质疏松症?"query_db(db,query)query = "怎么治疗鼻炎?"query_db(db,query)db = Nonepass

文档在当前代码目录下
./docs/第十六章-感染性疾病.docx
./docs/第八章-骨骼关节和肌肉疾病.docx
./docs/第十九章-耳鼻咽喉疾病.docx

http://www.lryc.cn/news/332109.html

相关文章:

  • Rust 中的字符串类型:`str` 和 `String`
  • Visual Studio(VS) 搭建 QT 开发环境
  • Qt模拟面试(超硬核)
  • 某眼实时票房接口获取
  • cesium键盘控制相机位置和姿态
  • 基于ArrayList实现简单洗牌
  • Paddle实现人脸对比
  • 挖一挖:PostgreSQL Java里的double类型存储到varchar精度丢失问题
  • 函数对象基本使用
  • 浅谈HTTP
  • HarmonyOS NEXT应用开发之@Provide装饰器和\@Consume装饰器:与后代组件双向同步
  • Docker 安装 | 部署MySQL 8.x 初始设置
  • linux三剑客之流编辑器sed
  • 【Android Studio】上位机-安卓系统手机-蓝牙调试助手
  • 怎样把学浪购买的课程下载下来
  • SD-WAN如何解决更有性价比地跨境网络问题
  • 第15章 File类与IO流
  • C语言基础语法-教案16(从小白到劝退之结构体初阶)
  • Linux:ip和ip协议的初步认识
  • Android12 简单的共享内存驱动实现 参考Ashmem
  • 物理安全和逻辑安全在信息安全中的重要作用
  • 每日一题 --- 滑动窗口最大值[力扣][Go]
  • TensorBoard可视化+Confustion Matrix Drawing
  • 012——LED模块驱动开发(基于I.MX6uLL)
  • 基于springboot实现房屋租赁管理系统项目【项目源码+论文说明】计算机毕业设计
  • 168.乐理基础-中古调式概述
  • 【项目实战】【Docker】【Git】【Linux】部署V2rayA项目
  • mac 切换 jdk
  • MD5加密返回32位密文字符串
  • npm常用命令技巧