ef参数设置说明(faiss)

news2024/11/23 0:51:08

 1、模型参数:1000代表聚类中心个数

 

随着聚类个数的增加,模型索引的构建时间近似指数增加但搜索精度也线性增加,不影响内存占用,几乎不影响搜索耗时

结论:在 Faiss 引擎的聚类情况下,对于百万级别的数据大概 4000 个聚类基本足够,符合 Faiss 官网文档聚类取 4*sqrt(N),即100w的item,聚类中心个数设置为4000,精度能达到99%

 2、搜索聚类个数

结论:固定聚类数量后,随着探针数量的增加,搜索耗时会近似均匀增加,搜索精度会逐渐接近 100%。因此在 Faiss 引擎的聚类情况下,建议 10% 的聚类数量作为探针数量是一个比较合适的搜索耗时和精度的平衡点。

索引性能优化建议

合理设置索引参数可显著提升搜索性能,下面针对常用的参数进行说明。

分片数

分片用来把大数据集切成多个子数据集。在搜索时,全部分片是并发执行的,分片数量越多,平均耗时越低,但是过多的分片会带来额外开销导致性能恶化。分片数设置原则:

  • 单分片数据量建议控制在100万以内,例如500万向量,可设置5个分片。
  • 如果数据量小于100万,建议使用1分片。系统对1分片有特定优化,可显著提升性能。
  • 如果数据量非常大,分片数量也尽量控制在50个以内。

副本数

副本数是指每个主分片有多少个相同的备份,用来容灾和负载均衡。副本数加上主分片就是总副本数。总副本数越大,占用的内存越多。副本数设置原则:

  • 一般情况下,线上环境副本数设置为2。副本数为0或1时,存在数据丢失的风险,建议仅在测试时选用。
  • 总副本数上限为集群总节点数。超过这个限制创建索引时会报错:Not enough nodes in cluster to create shard ...
  • 如果分片数设置为1,当总副本数等于集群总节点数时,搜索性能最好,但是占用内存也最多,相当于退化为单机版。
  • 搜索请求量越高的索引,应该设置越多的副本数,避免负载不均衡。

索引类型

索引类型指具体使用的ANN算法。目前有3种选择:Faiss、二进制、HNSW。索引类型设置原则:

  • 可以二值化的向量,优先选择二进制索引。二进制索引占用内存资源比浮点型向量少。
  • 数据量少于100万,建议优先选择HNSW。
  • 其它情况选择Faiss类型索引。

距离类型

直接支持的距离类型有内积距离、欧式距离、汉明距离,间接支持cosine距离。建议使用cosine距离和欧式距离,内积距离不是严格意义上的距离类型。

  • metric=0:内积距离(inner product),值越大越相似。如果向量提前做过normalize L2归一化,等价于cosine距离(cosine distance)。
  • metric=1:欧氏距离(european distance),值越小越相似(注意:系统返回的欧式距离是欧式距离的平方,如果需要用到真实值,自行开平方)。
  • Faiss二进制索引metric参数不用指定,强制使用汉明距离(Hamming distance),值越小越相似。

向量维度

系统对向量维度没有限制,但是合适的维度有助于提升性能。

  • 维度建议为4的整数倍,字节对齐有助于提升搜索性能。非4的整数倍维度可以添0增加维度至4的整数倍。
  • 维度越高,存储成本越高,检索效率越低。可提前做PCA降维处理,或者设置Faiss索引的参数降维

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/126928.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

B/S结构和C/S结构详细介绍

什么是c/s结构、b/s结构 1、C/S结构,即Client/Server(客户机/服务器)结构,是大家熟知的软件系统体系结构,通过将任务合理分配到Client端和Server端,降低了系统的通讯开销,充分利用两端硬件环境的优势。早期的软件系统…

Haploview做单倍型教程1--软件安装

大家好,我是邓飞,这里介绍一下如何使用Haploview进行单倍型的分析。 计划分为三篇文章: 第一篇:Haploview做单倍型教程1–软件安装第二篇:Haploview做单倍型教程2-分析教程第三篇:Haploview做单倍型教程3…

HCIA(1)

一. 计算机网络的诞生及发展 1946年2.14日,美国宾夕法尼亚大学为了美国军方用于导弹计算,发明了世界上第一台计算机,而计算机改变并且引领了世界的发展。 计算机是现代一种用于高速计算的电子计算机器,可以进行数值计算&#x…

『C语言』字符串的输入gets()和输出puts()

🚩write in front🚩 🔎大家好,我是謓泽,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 🏅2021年度博客之星物联网与嵌入式开发TOP5&#xff5…

MATLAB-fplot绘图函数

前面介绍的plot函数是将外部输人或者通过函数数值计算得到的数据矩阵转化为二维图形。在实际的应用中,用户可能并不知道所要绘制的二维图形中函数随着变量变化的趋势,假如此时用plot函数来绘制图形,则可能会由于变量的取值间隔不合理而导致所绘制的二维图…

2022年广西最新建筑施工焊工(建筑特种作业)模拟试题及答案

百分百题库提供特种工(焊工)考试试题、特种工(焊工)考试预测题、特种工(焊工)考试真题、特种工(焊工)证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻…

C++【跳表】

文章目录一、什么是跳表二、跳表的实现三、跳表性能分析一、什么是跳表 skiplist本质上也是一种查找结构,用于解决算法中的查找问题,跟平衡搜索树和哈希表的价值是一样的,可以作为key或者key/value的查找模型。 skiplist是由William Pugh发…

rabbitmq镜像模式

rabbitmq集群模式分为两种:普通模式和镜像模式 如果不设置集群模式则为普通模式,下面是将集群修改为镜像模式 镜像集群 RabbitMQ镜像功能,需要基于RabbitMQ策略来实现,策略policy是用来控制和修改群集范围的某个vhost的队列行为…

STM32/51单片机实训day8——基于Keil5+Proteus8使用DHT11温度传感器实现温湿度采集并在LM016L液晶屏上显示

目录 任务指导 1 DHT11产品概述 2 应用领域 3 传感器性能说明 4 接口说明 5 电源引脚 6 串行接口(单线双向) 通讯过程如图3所示: 任务实现​​​​​​​ 内 容:本任务使用DHT11温度传感器实现基本的端口配置、初始化时序。 学 时:3…

深度学习——样式迁移(笔记)

样式迁移:计算机视觉应用之一 1.将样式图片中的样式(比如油画风格)迁移到内容图片上,得到合成的图片 2.基于CNN的样式迁移 ①初始化合成图像,将其初始化内容图像。合成图像是风格迁移过程中唯一需要更新的变量X&#…

ChatGPT一战封神,和它聊完后,我更想躺平了

11 月 30 日,OpenAI 发布了名为 ChatGPT 的 AI 对话模型,它是 InstructGPT 的衍生模型,是根据 GPT-3.5 系列中的一个模型微调而来的,于 2022 年初完成训练。 用户规模达到 100 万需要多久?Netflix 用了三年半时间&…

刷题记录:牛客NC26257小雨坐地铁 [分层图跑最短路]

传送门:牛客 题目描述: 题目暂略 输入: 5 2 1 4 2 2 3 1 3 5 2 1 4 2 3 4 5 输出: 7一道分层图的经典题型,可以细细体会,这道题模拟出了经典的分层图题型 主要思路: 首先我们那道这道题应该不难想到最短路(这是显然的吧).大多数人应该都是卡在了建边的部分.每一条线路各自的…

【不共视的天敌】手眼标定AX = XB

一 . 手眼标定的作用及目的 机器人视觉应用中,手眼标定是一个非常基础且关键的问题。简单来说手眼标定的目的就是获取机器人坐标系和相机坐标系的关系,最后将视觉识别的结果转移到机器人坐标系下。 手眼标定行业内分为两种形式,根据相机固定的地方不同,如果相机和机器人末…

49. 残差网络(ResNet)

1. 加更多的层总是改进精度吗? 对于非嵌套函数类,较复杂(由较大区域表示)的函数类不能保证更接近“真”函数( f* )。这种现象在嵌套函数类中不会发生。 因此,只有当较复杂的函数类包含较小的函…

八、可变参数、stream流、异常

可变参数 介绍 定义方法参数的一种方式,方法的参数类型已经确定,个数不确定,我们可以使用可变参数 格式 修饰符 返回值类型 方法名(数据类型… 变量名) { }注意事项 可变参数的变量其实是一个数组如果一个方法有多个参数,包含可变参数,…

【ESP-Matter】matter协议学习笔记--以乐鑫方案为例

matter协议学习笔记--以乐鑫方案为例0. 写在前边的话1. matter 协议基本概念2. 设备间的本地自动化交互2.1 同步控制的实例:2.2 异步通知(订阅、报告)3. 桥接设备4. thread 边界路由器5. 专业名词0. 写在前边的话 以下学习笔记均参考乐鑫官方…

一位嵌入式初学者的2022年度总结

目录 学习过程 人工智能 嵌入式 51单片机 STM32 MicroPython Arduino 其他 未来计划 RT-Thread LIUNX 其他 总结 学习过程 今年二月份才开始写博客,到现在一共写了131篇文章,其中包含了Python,Mysql,51单片机&#…

阶段性回顾(1)

TIPS 1. 函数实参与形参地址不一样,形参的话有自己的内存空间与地址,当函数进行传值调用的时候,形参是实参的一份临时拷贝,各种对于形参的改变,对于实参来说不会产生任何影响。 2. 函数的实参与形参的关系就相当于两者…

Jacoco统计项目单元测试覆盖率

1.JaCoCo介绍: JaCoCo,即 Java Code Coverage,是EclEmma团队基于多年覆盖率库使用经验总结而研发的一个开源的Java代码覆盖率库。 代码覆盖(英语:Code coverage)是软件测试中的一种度量,描述程…

通信原理与MATLAB(九):DPSK的调制解调

目录1.差分编解码原理1.1差分编码原理1.2差分解码原理2.DPSK的调制原理3.DPSK的解调原理4.DPSK的代码5.结果图5.特点1.差分编解码原理 1.1差分编码原理 绝对码变相对码 如下图,绝对码10110,差分编码首先确定一个参考码元0,然后相对码bnan异…