当前位置：首页 > news >正文

milvus的GPU索引

news 2025/8/16 9:02:11

前言

milvus支持多种GPU索引类型，它能加速查询的性能和效率，特别是在高吞吐量，低延迟和高召回率的场景。本文我们将介绍milvus支持的各种GPU索引类型以及它们适用的场景、性能特点。

下图展示了milvus的几种索引的查询性能对比，通过下图我们发现批量查询的场景性能会更好

GPU_CAGRA

GPU_CAGRA是一个针对GPU优化的基于图的索引，它在GPU上能很好的执行推理。它最适合只有少量查询的场景，通过低频的内存训练的GPU通常得不到最优的结果。

索引构建参数：

Parameter	Description	Default Value
`intermediate_graph_degree`	通过在剪枝之前确定图的深度来影响召回率和构建时间，推荐的值是32或者64	`128`
`graph_degree`	通过在剪枝之后设置图的深度来影响查询性能和召回率。这两个深度之间的差异越大，构建时间就越长。它的值必须小于intermediate_graph_degree的值	`64`
`build_algo`	选择剪枝之前的图生成算法。可选的值： `IVF_PQ`: 提供更好的质量但是构建的时间比较慢 `NN_DESCENT`: 提供更快的构建但是降低了召回率	`IVF_PQ`
`cache_dataset_on_device`	决定是否在GPU内存里缓存原始数据集，可选值： `"true"`: 缓存原始数据集，以通过细化搜索结果来提高召回率。 `"false"`: 不在GPU内存缓存原始数据集	`"false"`

查询参数

Parameter	Description	Default Value
`itopk_size`	确定在查询期间中间结果的大小。比较大的值可能提高召回率但是影响查询性能。它至少要等于最终的top-k的值，并且是2的n次方(比如16, 32, 64, 128).	Empty
`search_width`	声明在查询期间进入CAGRA图的切入点的数量，增加它的值可以提高召回率但是影响性能	Empty
`min_iterations` / `max_iterations`	控制查询迭代进程，默认情况下它们设置为0，CAGRA根据itopk_size和search_width自动决定迭代的数量。手动调整它们的值可以平衡性能和准确率	`0`
`team_size`	声明用来在GPU上计算距离指标的CUDA线程数量。常用的值是2的n次方到32 (比如 2, 4, 8, 16, 32).它对搜索性能的影响很小，默认值是0，这样milvus会根据向量的维度自动设置team_size的值。	`0`

GPU_IVF_FLAT

与IVF_FLAT类似，GPU_IVF_FLAT也是将向量数据分为 nlist个聚类单元，然后比较输入的目标向量与每个聚类中心的距离。根据系统设置为查询（nprobe）的聚类数量，仅仅比较目标输入和最相似的聚类的向量来返回相似搜索结果，极大的降低了查询时间。

通过调整nprobe，针对特定的场景可以完美的平衡准确率和速度。从IVF_FLAT性能测试报告看出，随着目标输入向量数量（nq）和需要搜索的聚类数量（nprobe）的增加，查询时间急剧增加。

GPU_IVF_FLAT大部分是基于IVF索引，并且每个单元的编码数据存储与原始数据保持一致。当进行搜索的时候，我们可以对GPU_IVF_FLAT索引集合设置tok-K到256

索引构建参数

Parameter	Description	Range	Default Value
`nlist`	聚类单元的个数	[1, 65536]	128

查询参数

Parameter	Description	Range	Default Value
`nprobe`	查询多少个聚类单元	[1, nlist]	8

搜索限制

Parameter	Range
`top-K`	<= 256

GPU_IVF_PQ

PQ（乘积量化）将原始高维向量空间均匀分解为m个低维向量空间的笛卡尔乘积，然后对分解的低维度空间进行量化。替代计算目标向量和所有单元的中心距离，乘积量化计算目标向量和每个低维空间的聚类中心的聚类，这极大的降低了算法的时间复杂度和空间复杂度。

IVF_PQ在向量乘积的量化之前执行IVF索引聚类。它的索引文件甚至比IVF_SQ8还要小，但是它也导致了在向量搜索的时候损失了精度。

注意：索引构建参数和查询参数会随着milvus的版本变化，所以我们需要先选择对应的版本。当进行搜索的时候，我们可以对GPU_IVF_PQ索引集合设置tok-K到8192

索引构建参数

Parameter	Description	Range	Default Value
`nlist`	聚类单元的数量	[1, 65536]	128
`m`	乘积向量因子的大小	`dim mod m == 0`	4
`nbits`	低维度向量存储的位数（bits）	[1, 16]	8

查询参数

Parameter	Description	Range	Default Value
`nprobe`	需要查询的单元数量	[1, nlist]	8

查询限制

Parameter	Range
`top-K`	<= 1024

GPU_BRUTE_FORCE

GPU_BRUTE_FORCE是专门为非常高的召回率场景进行定制的，它通过比较数据库里面所有的向量确保召回率是1，它仅仅需要度量类型（metric_type）和 top-k(limit)作为索引构建和查询参数。

对于GPU_BRUTE_FORCE,不需要额外的索引构建参数和查询参数。

结论

当前，milvus为了高效的搜索操作加载所有的索引到GPU内存。可以加载的数据量依赖于GPU内存的大小。

GPU_CAGRA:需要的内存大小是原始向量数据大小的1.8倍
GPU_IVF_FLAT和GPU_BRUTE_FORCE:需要的内存大小与原始数据大小一样
GPU_IVF_PQ:占用较小的内存空间，它取决于压缩参数的设置。

查看全文

http://www.lryc.cn/news/371946.html

CleanMyMac2024最新免费电脑Mac系统优化工具

catia/delmia的快捷图标模式最多12个

磁盘性能概述与磁盘调度算法

chrome浏览器设置--disable-web-security解决跨域

Android中蓝牙设备的状态值管理

关于ReactV18的页面跳转传参和接收

南京观海微电子-----PCB设计怎样降低EMI

黑苹果/Mac如何升级 Mac 新系统 Sequoia Beta 版

2024年主流工单系统横向对比

实用软件下载:Studio One最新安装包及详细安装教程

网络安全练气篇——常见服务端口对应漏洞

WPF学习（3）--不同类通过接口实现同种方法

体验版小程序访问不到后端接口请求失败问题解决方案

【Linux文件篇】磁盘到用户空间：Linux文件系统架构全景

数据分析-Excel基础函数的使用

速盾的防护策略有哪些？

LabVIEW RT在非NI硬件上的应用与分析

使用Python批量处理Excel的内容

k8s+pv+pvc+nas 数据持久化volumes使用

C++算法-青蛙跳台阶【面试】

px转rem插件postcss-plugin-px2rem使用方法（浏览器缩放页面自适应）

批量文件重命名技巧：轻松替换删除文件夹名中的字母，实现高效文件管理新境界

windows设备/路由设备上ip地址如何查看、使用

服务端⾼并发分布式结构演进之路

Stable Diffusion ProtoVisionXL大模型之艺术盛宴！

浅谈golang字符编码

Vite和Webpack的区别是什么，你站队谁？

【微信小程序】事件传参的两种方式

前端针对需要递增的固定数据

红酒保存中的氧气管理：适度接触与避免过度氧化

GPU_IVF_FLAT

相关文章：