相似性搜索：第 2 部分：产品量化

系列文章前篇：相似性搜索：第 1 部分- kNN 和倒置文件索引_无水先生的博客-CSDN博客

SImilarity 搜索是一个问题，给定一个查询的目标是在所有数据库文档中找到与其最相似的文档。

一、介绍

在数据科学中，相似性搜索经常出现在NLP领域，搜索引擎或推荐系统中，其中需要检索最相关的文档或项目以进行查询。在大量数据中，有各种不同的方法可以提高搜索性能。

在本系列文章的第一部分中，我们研究了用于执行相似性搜索的 kNN 和倒排文件索引结构。正如我们所了解的，kNN是最直接的方法，而倒置文件索引则在其之上起作用，这表明在速度加速和精度之间进行权衡。然而，这两种方法都不使用可能导致内存问题的数据压缩技术，尤其是在数据集较大且RAM有限的情况下。在本文中，我们将尝试通过查看另一种称为产品量化的方法来解决此问题。

二、相似性定量化

乘积量化是将每个数据集向量转换为短内存高效表示（称为 PQ 代码）的过程。不是完全保留所有向量，而是存储它们的简短表示。同时，产品量化是一种有损压缩方法，导致预测精度较低，但在实践中，该算法非常有效。

In general, quantization is the process of mapping infinite values to discrete ones.

2.1 训练

首先，该算法将每个向量分成几个相等的部分——子向量。所有数据集向量的每个相应部分形成独立的子空间，并单独处理。然后对向量的每个子空间执行聚类算法。通过这样做，在每个子空间中创建多个质心。每个子向量都使用其所属质心的 ID 进行编码。此外，所有质心的坐标都会被存储起来供以后使用。

子空间质心也称为量子化向量。

在产品量化中，集群 ID 通常称为复制值。

注意。在下图中，矩形表示包含多个值的向量，而正方形表示单个数字。

使用量化进行编码

因此，如果将原始向量分成 n 个部分，则可以对其进行编码 n 个数字 — 每个子向量的各个质心的 ID。通常，创建的质心数 k 通常被选为 2 的幂，以便更有效地使用内存。这样，存储编码向量所需的内存为 n * log（k） 位。

子空间内所有质心的集合称为密码本。对所有子空间运行 n 个聚类算法会生成 n 个单独的码本。

3.2 压缩示例

想象一下，一个存储浮点数（1024 位）的大小为 32 的原始向量被分成 n = 8 个子向量，其中每个子向量由 k = 256 个簇中的一个编码。因此，对单个集群的 ID 进行编码需要 log（256） = 8 位。让我们比较两种情况下向量表示的内存大小：

原始向量：1024 * 32 位 = 4096 字节。
编码向量：8 * 8 位 = 8 字节。

最终压缩是512倍！这才是产品量化的真正力量。

量化示例。向量中的数字显示它存储了多少个数字。

以下是一些重要注意事项：

该算法可以在向量的一个子集上进行训练（例如，创建集群）并用于另一个子集：一旦算法被训练，就会传递另一个向量数据集，其中使用每个子空间的已构建质心对新向量进行编码。
通常，选择 k 均值作为聚类分析算法。它的优点之一是聚类数 k 是一个超参数，可以根据内存使用要求手动定义。

三、推理

为了更好地理解，让我们首先看一下几种幼稚的方法并找出它们的缺点。这也将帮助我们意识到为什么不应该正常使用它们。

3.1 简单的方法

第一种朴素方法包括通过连接每个向量的相应质心来解压缩所有向量。之后，可以从查询向量计算到所有数据集向量的 L2 距离（或其他指标）。显然，这种方法有效，但它非常耗时，因为执行暴力搜索并在高维解压缩向量上执行距离计算。

另一种可能的方法是将查询向量拆分为子向量，并根据其 PQ 代码计算从每个查询子向量到数据库向量相应量化向量的距离总和。因此，再次使用暴力搜索技术，这里的距离计算仍然需要原始向量维数的线性时间，就像前面的情况一样。

使用朴素方法计算近似距离。该示例显示了欧氏距离作为度量。

另一种可能的方法是将查询向量编码为 PQ 代码。然后直接使用此PQ代码来计算到所有其他PQ代码的距离。然后，具有距离最短的相应 PQ 代码的数据集向量被视为与查询最近的邻居。这种方法比前两种方法更快，因为始终在低维 PQ 代码之间计算距离。但是，PQ 代码由集群 ID 组成，这些集群 ID 没有太多语义含义，可以被视为显式用作实变量的分类变量。显然，这是一种不好的做法，这种方法可能会导致预测质量不佳。

3.2 优化的方法

查询向量分为子向量。对于其每个子向量，计算到相应子空间的所有质心的距离。最终，此信息存储在表 d 中。

获取存储部分查询子向量到质心距离的表 d

计算出的子矢量到质心距离通常称为部分距离。

通过使用此子向量到质心的距离表 d，可以通过其 PQ 代码轻松获得从查询到任何数据库向量的近似距离：

对于数据库向量的每个子向量，找到最接近的质心 j（通过使用 PQ 代码中的映射值），并获取从该质心到查询子向量 i 的部分距离 d[i][j]（通过使用计算的矩阵 d）。
所有部分距离均求平方和相加。通过取该值的平方根，得到近似的欧几里得距离。如果您还想知道如何获取其他指标的近似结果，请导航到下面的“其他距离指标的近似值”部分。