当前位置: 首页 > news >正文

【python qdrant 向量数据库 完整示例代码】

测试一下python版本的dqrant向量数据库的效果,完整代码如下:

安装库

!pip install qdrant-client>=1.1.1
!pip install -U sentence-transformers

导入

from qdrant_client import models, QdrantClient
from sentence_transformers import SentenceTransformerencoder = SentenceTransformer("all-MiniLM-L6-v2", device="cuda")

准备测试数据集

documents = [{"name": "The Time Machine","description": "A man travels through time and witnesses the evolution of humanity."* 8,"author": "H.G. Wells","year": 1895,},{"name": "Ender's Game","description": "A young boy is trained to become a military leader in a war against an alien race."* 4,"author": "Orson Scott Card","year": 1985,},{"name": "Brave New World","description": "A dystopian society where people are genetically engineered and conditioned to conform to a strict social hierarchy."* 6,"author": "Aldous Huxley","year": 1932,},
] * 50000print(len(documents))

创建存储库

qdrant = QdrantClient(":memory:")  # 内存中
# qdrant = QdrantClient(path='./qdrant')  # 存储到本地

在数据库中创建一个collection(类似一个存储桶)

qdrant.recreate_collection(collection_name="my_books",vectors_config=models.VectorParams(size=encoder.get_sentence_embedding_dimension(),  # Vector size is defined by used modeldistance=models.Distance.COSINE,),
)

对文档进行向量化

import hashlib
from tqdm import tqdmdef sha256(text):hash_object = hashlib.sha256()hash_object.update(text.encode("utf-8"))hash_value = hash_object.hexdigest()return hash_valuerecords = []
bs = 256
for i in tqdm(range(0, len(documents), bs)):docs = documents[i : i + bs]vectors = encoder.encode([doc["description"] for doc in docs], normalize_embeddings=True).tolist()record = [models.Record(id=idx, vector=vec, payload=doc)  # sha256(doc['description'])for idx, vec, doc in zip(range(i, i + bs), vectors, docs)]records.extend(record)

上传到向量数据库中指定的collection

qdrant.upload_points(collection_name="my_books", points=records, batch_size=128, parallel=12
)

语义搜索

query = "Aliens attack our planet"
hits = qdrant.search(collection_name="my_books",query_vector=encoder.encode(query).tolist(),limit=6,
)
for hit in hits:print(hit.payload, "score:", hit.score)

条件搜索

search only for books from 21st century

hits = qdrant.search(collection_name="my_books",query_vector=encoder.encode("Tyranic society").tolist(),query_filter=models.Filter(must=[models.FieldCondition(key="year", range=models.Range(gte=1980))]),limit=3,
)
for hit in hits:print(hit.payload, "score:", hit.score)

参考官方GitHub

github

colab

http://www.lryc.cn/news/447080.html

相关文章:

  • 初识C语言(三)
  • 用通义灵码如何快速合理解决遗留代码问题?
  • 新书推荐——《Python贝叶斯深度学习》
  • 数据结构-3.1.栈的基本概念
  • 关于 NLP 应用方向与深度训练的核心流程
  • linux如何启用ipv6随机地址
  • 探索 Android DataBinding:实现数据与视图的完美融合
  • Java 编码系列:线程基础与最佳实践
  • 《深度学习》—— ResNet 残差神经网络
  • 针对考研的C语言学习(定制化快速掌握重点3)
  • pikachu XXE(XML外部实体注入)通关
  • shell脚本定时任务通知到钉钉
  • 2.4K star的GOT-OCR2.0:端到端OCR 模型
  • 【JavaEE】——线程的安全问题和解决方式
  • 初步认识了解分布式系统
  • react 为什么不能学习 vue3 进行静态节点标记优化性能?
  • Elasticsearch黑窗口启动乱码问题解决方案
  • Logtus IT员工参加国际技术大会
  • ant design vue组件中table组件设置分组头部和固定总结栏
  • 2024年信息安全企业CRM选型与应用研究报告
  • 【后端开发】JavaEE初阶——计算机是如何工作的???
  • Linux(Ubuntu)源码安装postgresql16.3
  • Python 入门教程(7)面向对象 | 7.6、多态
  • Cilium + ebpf 系列文章-什么是ebpf?(一)
  • RabbitMQ08_保证消息可靠性
  • 恶意Bot流量识别分析实践
  • Java2 实用教程(第6版)习题2 第四题
  • HashMap和ConcurrentHashMap的区别
  • css 下拉框展示:当hover的时候展示下拉框 z-index的用法解释
  • spring装配笔记