随笔--向量数据库的检索算法

news2024/11/19 15:28:53

文章目录

  • 暴力搜索(Flat)
  • 聚类
  • 近似最近邻算法:ANN
  • 局部敏感哈希索引:LSH
  • 存储优化:(量化)聚类码本
    • 乘积量化索引:PQ
    • 层次导航小世界:HNSW

暴力搜索(Flat)

  • 原理: 让待查寻向量和每一个备选向量都计算相似度, 选取topk, 召回率是100%。
  • 计算相似度的方法:
    • 欧式距离(Euclidean Distance)
    • 曼哈顿距离(Manhattan Distance)
    • 夹角余弦(Cosine)
    • 皮尔逊相关系数(Pearson Correlation Coefficient)
    • 内积

聚类

  • 原理:随机选择一些样本作为聚类中心点,叫做质心,计算相似性或距离,将样本分配到最近的簇中,重新计算每个簇中的均值或中心点,作为新的聚类中心,重复以上两个步骤,直到满足停止条件。
    在这里插入图片描述

近似最近邻算法:ANN

局部敏感哈希索引:LSH

  • 原理步骤
    • 哈希函数可以将不同数据转化为统一长度的二进制编码

在这里插入图片描述
- 利用哈希碰撞,让尽可能相似的数据碰撞到同一个桶中
在这里插入图片描述

  • 如何找到哈希函数,让尽可能相似的向量分到一个桶中

    • 以二维举例,随即生成线,高维可以是超平面,分割之后一面为0 一面为1,计算二进制编码,最后对比相同的编码为一组。

    在这里插入图片描述

    在这里插入图片描述

    • 如果数据太密集误差较大,可以做优化,将二进制编码再进行分组。

在这里插入图片描述

存储优化:(量化)聚类码本

  • 原理:存储的时候可以对向量进行量化处理,减少内存占用、提高查询速度
    在这里插入图片描述

乘积量化索引:PQ

  • 原理:对于高维数据,直接存储内存占用个太多,可以进行分段存储,每段有自己的码本,可以降较少内存的消耗
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

层次导航小世界:HNSW

  • 6人原理,每6个人引荐就能找到另一个人。
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/830803.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何用cpolar创建隧道,实现外网访问内网?

如何用cpolar创建隧道,实现外网访问内网? 文章目录 如何用cpolar创建隧道,实现外网访问内网? 在安装和调试完本地的cpolar后,我们终于可以接触到cpolar的核心功能:建立一条专属于自己的数据通道&#xff0c…

dirsearch Web目录扫描器使用手册-新手入门指南

声明:该系列文章首发于公众号:Y1X1n安全,转载请注明出处!本公众号所分享内容仅用于每一个爱好者之间的技术讨论及教育目的,所有渗透及工具的使用都需获取授权,禁止用于违法途径,否则需自行承担&…

纯css实现登录表单动效

效果图&#xff1a; 代码展示 // 我这边用的是elementUI表单校验&#xff0c;更改的样式。 <el-form:model"form":rules"rules"ref"fromList":hide-required-asterisk"true"><el-form-item prop"account"><…

vim粘贴内容格式混乱解决方法

问题 复制本地文件内容后&#xff0c;咱贴到vim文本内&#xff0c;格式错乱 解决方法 打开vim配置文件 最后面加入一行 vim /etc/vimrc set pastetoggle<F11> 开发vim文件&#xff0c;进入后先按F11进入交互模式 shift insert 再次粘贴 解决

c语言野指针int*p、空指针int*p = NULL、万能指针void* p

1、野指针&#xff0c;既没有初始化的指针&#xff0c;//如果没有给指针初始化&#xff0c;则指针p的内容为随机地址&#xff0c;会随机指向&#xff0c;故成为野指针&#xff0c;不可以操作野指针 #include "stdio.h" #include <stdlib.h>int main() {//1、野…

STM32 低功耗-睡眠模式

STM32 睡眠模式 文章目录 STM32 睡眠模式第1章 低功耗模式简介第2章 睡眠模式简介2.1 进入睡眠模式2.1 退出睡眠模式 第3章 睡眠模式代码示例总结 第1章 低功耗模式简介 在 STM32 的正常工作中&#xff0c;具有四种工作模式&#xff1a;运行、睡眠、停止和待机模式。 在系统或…

[学习笔记]3小时搞定DRF框架 | Django REST framework前后端分离框架实践

3小时搞定DRF框架 | Django REST framework前后端分离框架实践 前言(基于INSCODE AI助手) DRF&#xff08;全称Django REST framework&#xff09;是一个用于构建 Web API 的强力工具集&#xff0c;是一个基于Django的Python Web框架&#xff0c;它为开发人员提供了一套快速开…

[openCV]基于拟合中线的智能车巡线方案V4V5

V4: import cv2 as cv import os import numpy as npimport time# 遍历文件夹函数 def getFileList(dir, Filelist, extNone):"""获取文件夹及其子文件夹中文件列表输入 dir&#xff1a;文件夹根目录输入 ext: 扩展名返回&#xff1a; 文件路径列表""…

Mybatis引出的一系列问题-Spring事务的探究

1 spring事务的传播特性 package com.zs.service;Service public class UserService {Autowiredprivate UserDao userDA0;Transactionalpublic void transfer(String fromName, String toName, Integer money) {userDA0.out(fromName, money);int a 1 / 0;userDA0.in(toName,…

在中国人民大学与加拿大女王金融硕士项目的岁月,不会负了每个有心人

学习&#xff0c;就像是一场战争&#xff0c;有时你觉得在这拼命撕杀的战场上&#xff0c;你是孤独与无助的&#xff0c;但你殊不知&#xff0c;你其实并不是孤身奋战的&#xff01;学习路上会遇见很多有心人&#xff0c;在中国人民大学与加拿大女王金融硕士项目的岁月&#xf…

关于 JavaScript 数组的遍历函数:map, reduce, filter 等

JavaScript 列表的 map 方法是一个常用的数组遍历方法&#xff0c;将会对每一个列表中的元素都应用所给的转换方法&#xff0c;也就是 u > (...)&#xff0c;这是 ES6 中匿名函数的表达式写法&#xff0c;在这种使用场景中是一种非常方便的语法糖&#xff0c;map 方法在遍历…

亚马逊鲲鹏系统是怎么引流的?

亚马逊鲲鹏系统有三种引流方式&#xff0c;可设置通过亚马逊站点搜索、站外引流、直接访问产品页面进入到相关产品页面进行操作。 1、通过亚马逊站点搜索 正常的登录到我们的亚马逊主页&#xff0c;然后通过设置关键词及asin&#xff0c;最后进入你指定的产品&#xff0c;进行…

景联文科技高质量成品数据集上新啦!

景联文科技近期上新多个成品数据集&#xff0c;包含图像、视频等多种类型的数据&#xff0c;涵盖丰富的场景&#xff0c;可满足不同模型的多元化需求。 高质量成品数据集可用于训练和优化模型&#xff0c;使得模型能够更加全面和精准地理解和处理任务&#xff0c;更好地应对复…

QT中使用ffmpeg的api进行视频的播放

在了解ffmpeg使用api进行视频的播放之前&#xff0c;我们首先了解一下视频的播放流程。 一、视频的播放流程 首先是我们最常见的视频文件&#xff0c;在播放流程中首先是要打开视频文件&#xff0c;将视频文件中的数据进行解封装&#xff0c;之后再将解封装之后的视频进行解码…

仅需6GB显存,拥有专属AI代码助手

清华GLM技术团队打造的多语言代码生成模型CodeGeeX近期更新了新的开源版本「CodeGeeX2-6B」。CodeGeeX2是多语言代码生成模型CodeGeeX的第二代模型&#xff0c;不同于一代 CodeGeeX &#xff0c;CodeGeeX2 是基于 ChatGLM2 架构加入代码预训练实现。得益于 ChatGLM2 的更优性能…

Dos常用命令有哪些?具体的使用方式是什么?

1. 常用命令 对我们来说&#xff0c;掌握几个常见的dos命令即可&#xff0c;如下&#xff1a; dir&#xff1a;列出当前目录下所有的文件及文件夹&#xff1b; md&#xff1a;创建一个文件夹&#xff1b; rd&#xff1a;删除一个空目录&#xff1b; cd&#xff1a;进入指定…

第二章 圣诞夜的滑雪场

系列文章目录 第一章 修学旅行&#xff08;凯撒密码、栅栏密码&#xff09; 前言 这一章借鉴了基德大人和青子小姐的剧情&#xff0c;感兴趣的童鞋可以看一看哟&#xff01;&#xff08;本人柯迷&#xff09; 摩斯密码 到了下午&#xff0c;老师将大家聚在一起&#xff0c;笑…

云主机OOM宕机原因分析及处理

一、故障现象 某次服务器告警宕机故障&#xff0c;无法ssh连入&#xff0c;控制台登录后查看&#xff0c;发生OOM事件&#xff0c;OOM就是我们常说的Out of Memory内存溢出&#xff0c;它是指需要的内存空间大于系统分配的内存空间&#xff0c;导致项目程序crash&#xff0c;甚…

Ubuntu20.04 + QT5.14.2 + VTK8.2.0 + PCL 1.10 环境配置

目录 Ubuntu20.04 QT5.14.2 VTK8.2.0 PCL 1.10 环境配置一、VTK 编译和安装1、库依赖&#xff1a;2、下载资源&#xff1a;[下载VTK8.2.0](https://www.vtk.org/files/release/8.2/VTK-8.2.0.tar.gz)3、编译&#xff1a;4、安装5、qtcreator 配置编译的libQVTKWidgetPlugin.…

直播录制怎么录?推荐这3个方法!

随着互联网的发展&#xff0c;直播已经成为了一种热门的社交和内容创作方式。然而&#xff0c;有时候我们可能会错过一些重要的直播内容&#xff0c;因此直播录制成为了很多用户的需求。本文将介绍几种直播录制的方法&#xff0c;通过本文的指导&#xff0c;您将学会如何简单易…