AI基于近邻图的向量搜索（一）

案例介绍

使用场景

最近邻搜索的应用场景十分广泛，包括计算机视觉、模式识别、基于内容的图像或视频检索等。

在这其中，SPTAG的一个重要应用场景便是搜索引擎了。随着深度学习的发展，我们可以利用深度神经网络将绝大部分的内容（常见的有文本、图片、音频、视频等）映射到高维空间，获取到对应的向量。利用向量，我们便可以更轻易地找出相关联的内容。

在搜索引擎中的应用

在过去，传统的搜索引擎往往是通过"关键词"对内容进行检索，但这就要求了用户需要将问题抽象成几个"关键词"，且需要精确描述问题。然而，随着网络信息的爆炸式增长和信息技术的高速发展，工程师们发现用户习惯已经悄然改变：用户搜索的内容越来越长，他们往往期望通过输入一段自然语言甚至一张图片来搜索出他们想要的结果，而不只是通过关键词。网络搜索任务也因此变得更加复杂和多样化了。

为此，我们需要思考如何才能将自然语言或者图片与数据库中的内容匹配，找出最相关的内容呢？为了让计算机认识自然语言、图片等内容，我们需要将其编码成计算机认识的形式，其中，最常见和有效的就是向量了。向量可以是各种形式的内容（如关键词、图片、语音等）在高维空间的表示。我们可以利用现有的算法（如深度神经网络）将不同形式的内容转化的向量，获取到对应的向量。向量在高维空间的表示是有意义的，我们认为关联性越强的内容在空间上的距离越小或相似度越大。

利用向量的表示，我们可以将数据库的内容全部转换成向量，再将用户的搜索输入用同样的算法转换成在同一个空间的向量。此时，搜索引擎的匹配问题就变成了最近邻问题（Nearest Neighbor）。我们的任务就是从大规模的向量中找出与输入向量最相近的一组向量。

对于大规模数据，Brute-Force或线性查找的时间复杂度是难以接受的。因此，我们需要合适的算法来提高搜索速度。传统的关键词检索可以通过构建倒排索引（Inverted Index）来提高检索速度，但是我们无法为向量构建这样的索引。对于向量，我们通常是利用树或图（如KD-Tree， HNSW）来构建索引，从而帮助我们在大量的向量中找出最相似的向量。当然，鱼与熊掌不可兼得，速度的提升往往是以牺牲精度为前提的。于是，问题最终变成了近似最近邻（Approximate Nearest Neighbor， ANN）问题。

但无论是使用树还是图，它们都有各自的问题，例如，KD-Tree在面对高维度数据时效果显著下降，而使用近邻图则容易陷入局部最优。因此，微软提出了SPTAG，通过结合树和图，在弥补各自的不足的基础上，还做出了一定的优化。SPTAG解决的核心问题其实是上述的ANN问题，因此，我们还可以将SPTAG应用到许多不同的场景，如计算机视觉、模式识别等领域。

核心知识点

KD-Tree（K维树）
BKTree（平衡 K 均值树）
KNN 图（K 最近邻图）
RNG（相对邻域图）

先修知识

C++
数据结构（包含二叉树、哈希算法、图论等基础知识）

案例详解

SPTAG架构

可见，上述提到的算法都有各自的问题，适用于不同的场景，而SPTAG的核心思路是将树和图结合，从而弥补各自的缺陷，使场景更为通用。

其架构如图：

SPTAG分为了Tree部分和Graph部分。Tree部分利用KD-Tree或BKTree实现，Graph部分使用了基于KNN图改进的RNG。在进行搜索时，SPTAG首先会从Tree部分获取“种子”向量，将该种子向量作为Graph中的起始点进一步搜索近邻点。

Tree部分

Tree部分SPTAG使用了KDTree和BKTree实现。在调用时，可以根据需求选择任意一种。KD-Tree适合低维度（如小于100维）的向量，反之，BKTree适合高维度的向量。

KD-树

KD-Tree的本质是每个结点都以某一维划分的二叉树，是二叉搜索树（BST）的拓展。二叉搜索树的每个结点可以视为一个划分，小于等于该结点的归入左子树，大于该结点的归入右子树。

那么，如何构建二叉搜索树呢？

给定一组数据：[8, 3, 6, 10, 4, 1, 7, 14, 13]。我们选取数据中第一位作为划分结点，小于等于该值的归入左子树，大于该值的归入右子树，以此规则递归生成一棵二叉搜索树。

选取8作为划分结点，可以得到左子树l：[3， 6， 4， 1， 7]，右子树r：[10， 14， 13]。
进一步划分左子树l，选3作为划分结点，得到新的左子树l-l为：[1]，右子树l-r：[6， 4， 7]。
由于左子树l-l只有一个结点，划分完成，开始划分右子树l-r，选6为划分结点，得到左子树l-r-l：[4]，右子树l-r-r：[7]。
此时，左子树l划分完成，开始划分右子树r。选10为划分结点，得到左子树r-l：[ ]，右子树r-r：[14， 13]。
由于左子树r-l为空，划分完成，开始划分右子树r-r。选14为划分结点，得到左子树r-r-l：[13]，右子树r-r-r：[ ]。

至此，划分完成，可以得到下图的BST。

二叉搜索树的数据仅有一维，而对于多维数据，我们可以在每次划分时选择其中的任意一维作为划分值，若数据中选定的某一维度的值小于等于划分值，归入左子树，大于划分值则归入右子树。除此之外，其构建过程与二叉搜索树的构建过程一致。

另外，在选择划分值构建KD-Tree时，我们通常会选择方差最大的维度的平均值作为划分值。因为方差越大，代表数据越分散，而选择数据比较分散的维度，会更容易将样本划分开。当然，划分的规则并不是绝对的，还可以轮流选择维度、随机选择维度等，我们可以根据实际的需求而调整。

构建算法

从方差最大的前N个维度（SPTAG选取了前5维）中随机选择一个维度作为划分维度，将中位数作为划分值，划分出两组子空间，小于等于划分值的归入左子树空间，大于划分值的归入右子树空间。
分别对划分的子空间递归以上步骤，直到划分的子空间中只有一个点，然后将其作为叶子结点。

下面演示一下KD-Tree的构建过程。

假设我们有一组2维（x，y）数据：[（2,3），（5,4），（4,7），（7,2），（9,6），（8,1）]。

分别计算这两维的方差： $var（x） = 5.8$， $var（y） = 4.5$。所以我们选择x维作为划分维度，选择x维的中位数较大的(7,2)作为划分结点。得到左子空间l：[（2,3），（5,4），（4,7）]，右子空间r：[（9,6），（8,1）]。
开始划分左子空间l。分别计算x，y维方差：$var（x）=1.6$， $var（y）=2.9$。所以选择y维作为划分维度。选择y维的中位数（5,4）作为划分结点，得到左子空间l-l：[（2,3）]，右子空间r-l：[（4,7）]。
由于左子空间l-l和右子空间r-l都只有一个点，将其作为叶子结点，划分结束。开始划分右子空间r。计算方差：$var（x）=0.25$， $var（y）=6.25$。选择y维作为划分空间，中位数中较大的（9,6）作为划分点，得到左子空间r-l：[（8,1）]，右子空间r-r：[]。
左子空间r-l只有一个结点，右子空间r-r为空，划分结束。

最后，我们可以得到下图的KD-Tree。