milvus的GPU索引

news2024/10/5 15:32:34

前言

milvus支持多种GPU索引类型,它能加速查询的性能和效率,特别是在高吞吐量,低延迟和高召回率的场景。本文我们将介绍milvus支持的各种GPU索引类型以及它们适用的场景、性能特点。

下图展示了milvus的几种索引的查询性能对比,通过下图我们发现批量查询的场景性能会更好

GPU_CAGRA

GPU_CAGRA是一个针对GPU优化的基于图的索引,它在GPU上能很好的执行推理。它最适合只有少量查询的场景,通过低频的内存训练的GPU通常得不到最优的结果。

  • 索引构建参数:
ParameterDescriptionDefault Value
intermediate_graph_degree

通过在剪枝之前确定图的深度来影响召回率和构建时间,推荐的值是32或者64

128
graph_degree

通过在剪枝之后设置图的深度来影响查询性能和召回率。这两个深度之间的差异越大,构建时间就越长。它的值必须小于intermediate_graph_degree的值

64
build_algo

选择剪枝之前的图生成算法。可选的值:
IVF_PQ: 提供更好的质量但是构建的时间比较慢
NN_DESCENT: 提供更快的构建但是降低了召回率

IVF_PQ
cache_dataset_on_device

决定是否在GPU内存里缓存原始数据集,可选值:

"true": 缓存原始数据集,以通过细化搜索结果来提高召回率。
"false": 不在GPU内存缓存原始数据集

"false"

  • 查询参数
ParameterDescriptionDefault Value
itopk_size

确定在查询期间中间结果的大小。比较大的值可能提高召回率但是影响查询性能。它至少要等于最终的top-k的值,并且是2的n次方(比如16, 32, 64, 128).

Empty
search_width

声明在查询期间进入CAGRA图的切入点的数量,增加它的值可以提高召回率但是影响性能

Empty
min_iterations / max_iterations

控制查询迭代进程,默认情况下它们设置为0,CAGRA根据itopk_size和search_width自动决定迭代的数量。手动调整它们的值可以平衡性能和准确率

0
team_size

声明用来在GPU上计算距离指标的CUDA线程数量。常用的值是2的n次方到32 (比如 2, 4, 8, 16, 32).它对搜索性能的影响很小,默认值是0,这样milvus会根据向量的维度自动设置team_size的值。

0

GPU_IVF_FLAT

与IVF_FLAT类似,GPU_IVF_FLAT也是将向量数据分为 nlist个聚类单元,然后比较输入的目标向量与每个聚类中心的距离。根据系统设置为查询(nprobe)的聚类数量,仅仅比较目标输入和最相似的聚类的向量来返回相似搜索结果,极大的降低了查询时间。

通过调整nprobe,针对特定的场景可以完美的平衡准确率和速度。从IVF_FLAT性能测试报告看出,随着目标输入向量数量(nq)和需要搜索的聚类数量(nprobe)的增加,查询时间急剧增加。

GPU_IVF_FLAT大部分是基于IVF索引,并且每个单元的编码数据存储与原始数据保持一致。当进行搜索的时候,我们可以对GPU_IVF_FLAT索引集合设置tok-K到256

  • 索引构建参数
ParameterDescriptionRangeDefault Value
nlist聚类单元的个数[1, 65536]128

查询参数

ParameterDescriptionRangeDefault Value
nprobe查询多少个聚类单元[1, nlist]8

搜索限制

ParameterRange
top-K<= 256

GPU_IVF_PQ

PQ(乘积量化)将原始高维向量空间均匀分解为m个低维向量空间的笛卡尔乘积,然后对分解的低维度空间进行量化。替代计算目标向量和所有单元的中心距离,乘积量化计算目标向量和每个低维空间的聚类中心的聚类,这极大的降低了算法的时间复杂度和空间复杂度。

IVF_PQ在向量乘积的量化之前执行IVF索引聚类。它的索引文件甚至比IVF_SQ8还要小,但是它也导致了在向量搜索的时候损失了精度。

注意:索引构建参数和查询参数会随着milvus的版本变化,所以我们需要先选择对应的版本。当进行搜索的时候,我们可以对GPU_IVF_PQ索引集合设置tok-K到8192

索引构建参数

ParameterDescriptionRangeDefault Value
nlist聚类单元的数量[1, 65536]128
m乘积向量因子的大小dim mod m == 04
nbits

低维度向量存储的位数(bits)

[1, 16]8

查询参数

ParameterDescriptionRangeDefault Value
nprobe需要查询的单元数量[1, nlist]8

查询限制

ParameterRange
top-K<= 1024

GPU_BRUTE_FORCE

GPU_BRUTE_FORCE是专门为非常高的召回率场景进行定制的,它通过比较数据库里面所有的向量确保召回率是1,它仅仅需要度量类型(metric_type)和 top-k(limit)作为索引构建和查询参数。

对于GPU_BRUTE_FORCE,不需要额外的索引构建参数和查询参数。

结论

当前,milvus为了高效的搜索操作加载所有的索引到GPU内存。可以加载的数据量依赖于GPU内存的大小。

  • GPU_CAGRA:需要的内存大小是原始向量数据大小的1.8倍
  • GPU_IVF_FLAT和GPU_BRUTE_FORCE:需要的内存大小与原始数据大小一样
  • GPU_IVF_PQ:占用较小的内存空间,它取决于压缩参数的设置。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1818131.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

40. 【Java教程】数据库编程

本小节我们将学习如何使用 Java 语言结合数据库进行编程。注意&#xff0c;学习本小节需要你有一定的 SQL 基础&#xff0c;了解 MySQL 数据库的 基础 CRUD 操作。 本小节我们将选择开源免费的 MySQL 5.7 作为数据库&#xff0c;可以去官网下载并安装 MySQL。 通过本小节的学…

nosql数据库的特点

NoSQL简介 NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称,它所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。NoSQL数据库没有固定的表结构,通常也不存在连接操作,也没有严格遵守ACID约束。因此…

无法在地址[localhost]和端口[8005]上创建服务器关闭套接字(基本端口[8005]和偏移量[0])

今天小伙伴问我一个问题&#xff0c;说是新服务器启动应用&#xff0c;报了一个错误&#xff0c;如下&#xff1a; 一开始我怀疑是端口被占用 经过排查端口没有被占用&#xff0c;然后我怀疑localhost解析有问题 经过 ping localhost 后&#xff0c;得到以下结果到这里很明…

SpringBoot集成slf4j日志配置

目录 前言 1、slf4j概述 2、pom.xml的日志依赖 3、application.yml的日志配置 4、logback.xml配置文件定义 5、logback.xml配置文件解析 5.1 定义日志的存储路径 5.2 定义日志的输出格式 5.3 定义控制台输出 5.4 定义日志相关参数 5.5 定义日志的输出级别 6、测试日…

mysql中 redo日志(下)

大家好。上篇文章我们介绍了什么是redo日志以及redo日志的写入过程。建议没看过上篇文章的同学先看一下上一篇文章&#xff0c;今天我们继续来说一说redo日志。 一、redo日志文件 1. redo日志刷盘时机 我们知道mtr运行过程中产生的一组redo日志在mtr结束时会被复制到log buf…

利用AI大模型,将任何文本语料转化为知识图谱,可本地运行!

几个月前&#xff0c;基于知识的问答&#xff08;KBQA&#xff09;还是一个新奇事物。 现在&#xff0c;对于任何 AI 爱好者来说&#xff0c;带检索增强生成&#xff08;RAG&#xff09;的 KBQA 就像小菜一碟。看到自然语言处理&#xff08;NLP&#xff09;的可能性领域由于大…

JVM性能优化案例:优化垃圾回收器的年轻代和老年代占比

JVM性能优化案例&#xff1a;优化垃圾回收器的年轻代和老年代占比 我们有一款在线交易系统&#xff0c;要求低延迟和高吞吐量。系统运行在Ubuntu服务器上&#xff0c;使用OpenJDK 11&#xff0c;并启用了G1垃圾回收器。以下是系统的基本配置和GC日志信息&#xff1a; 操作系统…

学习笔记丨嵌入式BI分析的12个关键功能

编者注&#xff1a;以下内容节选编译自嵌入式分析厂商Qrvey发表的《What is Embedded Analytics?》&#xff08;什么是嵌入式分析&#xff09;一文&#xff0c;作者为Qrvey产品市场主管Brian Dreyer。 什么是嵌入式分析&#xff1f; 嵌入式分析是指能够将数据分析的特性和功…

React+TS前台项目实战(七)-- 全局常用组件Select封装

文章目录 前言Select组件1. 功能分析2. 代码详细注释说明3. 使用方式4. 效果展示&#xff08;1&#xff09;鼠标移入效果&#xff08;2&#xff09;下拉框打开效果&#xff08;3&#xff09;回调输出 总结 前言 今天这篇主要讲全局select组件封装&#xff0c;可根据UI设计师要…

java1.8运行arthas-boot.jar运行报错解决

报错内容 输入java -jar arthas-boot.jar&#xff0c;后报错。 [INFO] JAVA_HOME: D:\developing\jdk\jre1.8 [INFO] arthas-boot version: 3.7.2 [INFO] Can not find java process. Try to run jps command lists the instrumented Java HotSpot VMs on the target system.…

资源付费系统小程序APP公众号h5源码

&#x1f510; 揭秘“资源付费系统”&#xff1a;知识、技能与价值的交汇点 &#x1f48e; &#x1f31f; 引言&#xff1a;为何资源需要付费&#xff1f; 在数字化时代&#xff0c;我们周围充斥着大量的信息。但并非所有信息都具有同等的价值。其中&#xff0c;那些经过精心…

项目五串行通信系统 任务5-3温度信息上传

任务描述&#xff1a;DS18B20测量温度&#xff0c;单片机采集温度数据转换显示代码&#xff0c;并通过串行口发送到上位机显示。 底层文件&#xff1a; /********************************************* ds18b20底层函数:能完成一次温度数据读取 ***************************…

算法课程笔记——线段树动态开点

算法课程笔记——线段树动态开点 、

大模型高考数学测评结果,国内AI大模型成绩超GPT-4o!

每年高考都是备受全社会关注的一件大事&#xff0c;而今年略有不同&#xff0c;因为除了鱼跃龙门的高三学子们&#xff0c;还多了许多陪他们一同参加考试的 AI 大模型。 在所有的考试科目中&#xff0c;数学显然一直都是最难的那一门&#xff0c;不论是对考生还是对大模型。因…

设备管理系统——设备台账管理

设备管理系统中的设备台账管理是一项关键的功能&#xff0c;它涵盖了设备从购入、使用、维护到报废的全生命周期管理。以下是设备台账管理在设备管理系统中的详细功能和重要性&#xff1a; 一、设备台账管理的基本功能 设备信息录入&#xff1a; 录入设备的基本信息&#xff0…

B端系统的颜值问题:成也框架,败也框架!

B端UI框架和前端框架的出现&#xff0c;让系统的搭建就像堆积木一样&#xff0c;十分的容易了。这也一下子把程序员的设计和审美水平拔高到了UI框架能够达到的高度。伴随而来的则是系统的堆砌、同质化、糟糕的体验&#xff0c;以及各种违和的组件被生搬硬套的绑定在一块&#x…

传统工厂该如何做数字化转型?

传统工厂实现数字化转型需多方面着手&#xff0c;包括树立战略意识、明确目标规划&#xff0c;加强信息化建设、提升数据能力&#xff0c;培养引进人才、推动技术创新&#xff0c;优化业务流程、提高生产效率与质量管控&#xff0c;加强协同合作、实现产业链整合&#xff0c;建…

男士内裤买便宜还是贵的?2024年高性价比男士内裤汇总分享

男生内裤&#xff0c;作为贴身衣物&#xff0c;承载着男性的私密与舒适。然而&#xff0c;许多男士的内裤状况却让人大跌眼镜&#xff1a;穿到变形、腰部松垮无弹性&#xff0c;屁股后面甚至出现破洞&#xff0c;这样的景象已然屡见不鲜。更有些男士的内裤&#xff0c;中间一个…

lnmp的介绍与源码部署以及 |什么是正向、反向、透明代理 | 常见的集群有哪些

lnmp 文章目录 lnmp1.LNMP是什么2. lnmp简介3.系统特点4.优点5.lnmp部署5.1 nginx安装5.2 mysql安装5.3 php安装5.4配置nginx服务处理php 6.扩展知识点1.什么是集群2.常见的集群有哪些集群的分类1、高可用集群2、负载均衡集群3、分布式计算集群4、高性能集群(High Performance …

你为什么不相信 LLM 模型评测:深入评测 LLM 接口

我相信你已经看过很多机构发布的 LLM&#xff08;大语言模型&#xff09; 的模型效果质量的评测文章了。 其实呢&#xff0c;大家看了很多自称权威&#xff0c;或者不怎么权威的评测文章&#xff0c;基本上也就看看就完了&#xff0c;很少有人真的相信这些测试结果。 为什么你…