Traditional Methods for Machine Learning in Graphs

前言
一、Node-Level Tasks and Features
二、Link-Level Tasks and Features
三、Graph-Level Tasks and Features

前言

图机器学习任务可以分为三种：

Node-level prediction：节点级的预测
- 如对节点进行类别预测
Link-level prediction：边级的预测
- 如预测两节点之间以多大的概率存在一条边
Graph-level prediction：图级的预测
- 如预测某个分子是否含有某种属性

在这里插入图片描述

传统的机器学习会去设计节点、边、图的特征向量，然后获取一组有标签的训练集数据，在这组训练集上去训练机器学习模型(如 $Random\ forest$ 、 $S V M$ 、 $Neural\ network$ )。

在这里插入图片描述

对于新的节点、边、图，将其特征向量作为机器学习模型的输入与并得到预测。
【即主要做的是学习一个函数 $f$ ， $f$ 能够有效的将输入的特征向量 $x$ 映射到输出 $y$ 】

在这里插入图片描述

所以，使用传统算法，在图上使用有效的特征是获得良好模型性能的关键。

本章节主要探讨在节点、边、图上如何设计合适的特征向量。为了方便，仅关注无向图。

一、Node-Level Tasks and Features

先举一个半监督学习的例子：

绿色、红色分别代表不同类型的节点，灰色节点代表待分类的节点。如下图；

现想将灰色的节点进行分类，我们将度数大于等于2的节点归类为绿色节点，度数为1的节点归类为红色节点。

在这里插入图片描述
所以我们需要找到一个来能表示节点属性的feature来进行分类；上述例子中的feature是节点的度。

所以我们的目标是：
找到能够描述节点在网络中结构与位置的特征

可行的特征有：

$Node\ degree$
$Node\ centrality$
$Clustering\ \ coefficient$
$G r a p h l e t s$

$Node\ degree$ ：

节点度 $k_v$ 表示的是节点 $v$ 相邻节点的个数。如下图；

在这里插入图片描述
节点度的缺点是：对所有的邻居一视同仁。

如 $C$ 节点和 $E$ 节点的度数 $k$ 都为3，所以通过 $Node\ degree$ 会判定这两个节点具有相同的属性特征。

然而两个节点在空间上的位置不同，邻居节点也不同，可能会具有不同的重要性或者属性特征。但是通过 $Node\ degree$ 并不能表示出这一不同。

$Node\ centrality$ ：

$Node\ centrality$ 特征考虑了图中节点的重要性，我们用 $c_v$ 来表示 $v$ 节点的 $Node\ centrality$ 特征值。

下面主要介绍三种不同可以衡量节点的重要性的 $Node\ centrality$ ：

$Engienvector\ centrality$
$Betweenness\ centrality$
$Closeness\ centrality$

$Engienvector\ centrality$ ：

思想：
如果节点 $v$ 被重要的相邻节点包围，则节点 $v$ 是重要的。

因此节点 $v$ 的 $c_v$ 为其相邻节点 $ce n t r a l i t y$ 的和，计算公式如下：
$c_v=\frac{1}{λ}\sum \limits _{u∈N(v)}c_u$

$λ$ 是一个用于标准化的常数，其值一般为邻接矩阵的最大特征值

将上诉式子向量化：

$c_v=\frac{1}{λ}\sum \limits _{u∈N(v)}c_u \iff λc=Ac$

$A$ ：邻接矩阵； $A_{uv}=1\ if\ u∈N(v)$
$c$ ： $Centrality\ vector$
$λ$ ： $A$ 的特征值，通常将 $A$ 的最大特征值 $λ_{max}$ 对应的特征向量 $c_{max}$ 当作 $ce n t r a l i t y$

$Betweenness\ centrality$ ：

思想：
如果一个节点位于其他节点之间的许多最短路径上，那么它就很重要。

其公式如下：

$c_v=\sum \limits _{s≠v≠t}\frac{从节点s到节点t中途经过节点v的最短路径数量}{从节点s到节点t最短路径数量}$

实例：

在这里插入图片描述

$Closeness\ centrality$ ：

思想：
如果一个节点到所有其他节点的最短路径长度很小，那么这个节点就很重要。

其公式如下：

$c_v=\frac{1}{\sum _{v≠u}从u到v最短路径长度}$

即 $c_v$ 值为从 $v$ 到其他节点最短路径之和的倒数。

实例：
在这里插入图片描述

$Clustering\ coefficient$ ：

$Clustering\ coefficient$ 通过测量邻居节点的连接情况来描述节点的特征，公式如下：

$e_v=\frac{节点v邻居节点之间的边数}{C^2_{k_v}}∈[0,1]$

$e_k$ ：节点 $v$ 的 $Clustering\ coefficient$
$k_v$ ：节点 $v$ 的度
$C^m_{n}$ ：组合数

$C^2_{k_v}$ 表示邻居节点之间有可能构成多少条边，上式的分子表示实际上邻居节点之间存在多少条边，所以 $e_v$ 可以看作是衡量节点邻居的连接有多紧密的度量。

例子：

在这里插入图片描述

第一幅图： $e_v=\frac{6}{C_4^2}=\frac{6}{6}=1$
第二幅图： $e_v=\frac{3}{C_4^2}=\frac{3}{6}=0.5$
第三幅图： $e_v=\frac{0}{C_4^2}=\frac{0}{6}=0$

一个观察：

我们可以以顶点 $v$ 为根，通过计算图片中三角形的数量来评估其重要性。如下图：

在这里插入图片描述

在社交网络中，会存在很多这种三角形，因为你的两个朋友可能会以你为媒介相互认识，从而构成一个三元组，形成一个三角形。

将上述观察进行扩展，将寻找三角形替换成：寻找某些预定义的子图 $pre-specified\ subgraph$ ，这就是下面将要介绍的 $g r a p h l e t s$ 。

$G r a p h l e t s$ ：

$G r a p h l e t s$ 中文翻译为：根连通诱导非同构子图。

在这里插入图片描述
如上图：给出了至多5个节点的73个不同的 $g r a p h l e t s$ 。

什么是 $g r a p h l e t s$ ？
给定节点个数 $k$ ， $k$ 个节点构成的异构(化学上的异构)图为可称为 $g r a p h l e t s$

以3个节点为例，规定了3个节点，3个节点可以构造出两个异构图 $G_1、G_2$ ， $G_1、G_2$ 就是两个 $g r a p h l e t s$ 。

图中标数字的节点表示为可以当做根的节点，如 $G_1$ ，该图以中间节点对称，所以头结点和尾结点是等价的，所以可以作为根的只有其中一个端结点和中间结点。再如 $G_2$ ，三个顶点都是等价的，所以只能选择其中一个作为根。

$G r a p h l e t De g ree V ec t or (G D V) :$
基于给定根节点的 $g r a p h l e t s$ 的计数向量

例子：
在这里插入图片描述

我们要计算图 $G$ 关于 $u$ 的 $G D V$ ，即给定了根节点 $u$ 。

这里 $g r a p h l e t s$ 是结点至多为3的异构图集合：
在这里插入图片描述

首先考虑第一个 $g r a p h l e t$ ，然后在图 $G$ 寻找：将 $a$ 放到 $u$ 的位置，寻找可以以 $g r a p h l e t$ 结构构成诱导子图的个数；这里可构成的个数是2；如下图：
在这里插入图片描述

再考虑第二个 $g r a p h l e t$ ，如下图：
在这里插入图片描述
再考虑第三个 $g r a p h l e t$ ，

首先考虑以 $c$ 为根的 $g r a p h l e t$
数量是 $0$ ， $G$ 中存在第三个 $g r a p h l e t$ 的结构，但是构不成 $g r a p h l e t$ 的诱导子图。因为 $G$ 中的相比 $g r a p h l e t$ 多了一条边(下图的红色)边。
其次考虑以 $d$ 为根的 $g r a p h l e t$ ，如下图

所以结点 $u$ 的 $G D V = [2, 1, 0, 2]$

在这里插入图片描述

二、Link-Level Tasks and Features

$link\ level\ Prediction$ 的任务是根据现有链路预测新的链路。在测试模型的时候，对图中不存在的链接预测其存在的概率后对其进行排序，将排在前 $K$ 个最可能存在的链接作为预测结果返回。

该任务的关键是为一对顶点设计合适的特征。

因为预测的链路都是不存在的，所以只能够通过顶点的来抽象的描述这条不存在链路的特征。

$link\ prediction$ 任务解决的两种方案：

$Links\ missing\ at\ random$ (随机丢失链接)：
该方法主要用于静态图中，随机的去除图中的一些边，然后训练一个模型以最大化的概率去预测这些去掉的边。
$Links\ over\ time$ (随时间变化的链接)：
该方法主要用于动态图中，给定一个 $t_0$ 到 $t^{'}_0$ 时刻的图 $G[t_0,t^{'}_0]$ ,然后训练一个模型能够输出一个按照链接出现概率为排名的列表 $L$ ，该列表 $L$ 中的链接是在 $G[t_0,t^{'}_0]$ 不存在的链接，但在下一时刻的图 $G[t_1,t^{'}_1]$ 中出现的链接。

链接预测步骤：

描述链接存在可能性，需要对每对顶点 $(x, y)$ ，计算出一个分数 $c (x, y)$ ，当作其存在的概率的评估。
按照分数 $c (x, y)$ 对每对顶点 $(x, y)$ 进行排序
取前 $n$ 个顶点对作为链接预测的返回结果
评判预测结果

关于顶点对的分数，可以以下三种方式给出：

$Distance-based\ feature$
$Local\ neighborhood\ overlap$
$Global\ neighborhood\ overlap$

该分数可以当作链路的 $f e a t u re$ 用于链路预测。

$Distance-based\ feature$ ：

思想：
两个节点之间的最短路径距离作为该顶点对的得分/feature。

例子：
在这里插入图片描述

该方法的缺点在于没有考虑顶点对邻居的重合度。

如顶点对 $(B, H)$ 之间有共同的两个邻居，顶点对 $(B, E)$ 之间只有一个共同的邻居，然而这两个顶点对的得分都是 $2$ ；即 $distance-based\ feature$ 并不能够表示出该信息。

$Local\ neighborhood\ overlap$ ：

为了能够表示出顶点对邻居的重合度，提出了 $local\ neighborhood\ overlap$ 。

方式一： $Common\ neighbors$
将共同的邻居作为其得分，公式为：
$N(v_1)∩N(v_2)|$

实例：
对于下图，顶点对 $(A, B)$ 的得分为1，因为 $A$ 和 $B$ 只存在一个共同的邻居 $C$ ，即 $N(A)∩N(B)|=|\{C\}|=1$
在这里插入图片描述

该方式的问题在于：度高的顶点对就会有更高的结果。所以提出了一种类似于归一化的方式 $Jaccard’s\ coefficient$ 。

方式二： $Jaccard’s\ coefficient$

其顶点对得分公式为：
$\frac{|N(v_1)∩N(v_2)|}{|N(v_1)∪N(v_2)|}$

实例：
对于下图，顶点对 $(A, B)$ 的得分为2，因为 $A$ 和 $B$ 只存在一个共同的邻居 $C$ ，即 $\frac{|N(A)∩N(B)|}{|N(A)∪N(B)|}=\frac{|\{C\}|}{\{|C,D|\}}=2$
在这里插入图片描述

方式三： $Adamic-Adar\ index$

其顶点对得分公式为：
$\sum _{u∈N(v_1)∩N(v_2)} \frac{1}{log(k_u)}$

即对顶点对的共同邻居的度取对数；

该方法当共同的邻居结点的度较少时，会获得更高的得分。 $Adamic-Adar\ index$ 在实践中表现得比较好，尤其在社交网络上，因为我们希望有一堆度数低的共同好友比有一堆名人共同好友的得分更高。

$Global\ neighborhood\ overlap$ ：

$local\ neighborhood\ features$ 存在得缺点：
当两个结点之间没有共同邻居，则该顶点对的得分很可能为0。但这两个顶点还是有可能被链接起来的。

如下图：

在这里插入图片描述

所以进一步提出了 $global\ neighborhood\ overlap$ ，该方法通过通过考虑整个图来解决这个限制。

$Katz\ index$ ：

思想：
计算给定节点对之间所有长度的路径的总和，将其当作得分。

得分可表示为：
$s_{u,v}=\sum_{l=1}^{∞}(u到v长度为l的路径的条数)$

那么如何计算长度为 $l$ 的路径有多少条呢？

还记得邻接矩阵的定义： $A_{u,v}=1\ if\ u∈N(v)$

将 $P^(K)_{uv}$ 定义为从 $u$ 到 $v$ 长度为 $K$ 的路径条数。

可以观察到： $P^{(1)}=A$ ，因为 $A$ 表示的就是结点之间能否一跳到达。

如何计算 $P^{(2)}_{uv}$ 呢？

步骤一：首先计算从 $u$ 到 $v$ 之间长度为 $1$ 的路径的条数，这个可以直接根据邻接矩阵得出，我们表示为 $P^{(1)}_{uv}$ 。
步骤二：对于长度为 $2$ 的路径，可以看作：
- 已知 $P^{(1)}_{uv}$
- 考虑 $u$ 通过第 $i$ 个结点再到 $v$ ，以这样的方式将路径长度加一
- 然后判断是否存在这一条路径，在将其结果相加即可，如下定义：
  $P^{(2)}_{uv}= \sum _iA_{ui}*P^{(1)}_{iv}=\sum _iA_{ui}*A_{iv}=A^2_{uv}$

$\sum _iA_{ui}*P^{(1)}_{iv}$ ：

$P^{(1)}_{iv}=x$ 则表示 $i$ 到 $v$ 有 $x$ 条长度为 $1$ 的路径
$A_{ui}=1$ 表示存在 $u$ 到 $i$ 的路径；反之不存在。
$A_{ui}*P^{(1)}_{iv}$ 表示：我 $u$ 先通过 $i$ ，再经过 $i$ 到 $v$ 这条长度为 $1$ 的路径存不存在。若不存在则数值为0，存在其值就是路径的个数。

可以通过数学归纳法去证明，当执行到第 $i$ 步：

已知 $P^{(i-1)}_{uv}$ ，求 $P^{(i)}_{uv}$
$P^{(i)}_{uv}$ 定义如下：
$P^{(i)}_{uv}= \sum _iA_{ui}*P^{(i-1)}_{iv}=\sum _iA_{ui}*A^{i-1}_{iv}=A^i_{uv}$

所以最后得到结论：
$\color{red}{P^{(k)}=A^{K}}$

所以 $Katz\ index$ 的定义更新如下：

$S_{u,v}=\sum\limits^{∞}_{l=1}\ β^l\ A^l_{u,v}$

$β$ ： $discount\ factor$ ( $0 < β < 1$ )，其作用时希望路径长度越长的路径权重越小，即对得分的贡献越小。

上面的定义可以进一步推导成：
$S_{u,v}=\sum\limits^{∞}_{l=1}\ β^l\ A^l_{u,v}=(I-βA)^{-1}-I$

推导过程：
$S=βA+β^2A^2+\cdots+β^∞A^∞$
.
$(I - β A) (I + S)$
$=(I-βA)(I+βA+β^2A^2+\cdots)$
$=(I+βA+β^2A^2+\cdots)-(βA+β^2A^2+β^3A^3+\cdots)$
$= I$
.
因此， $S_{u,v}=(I-βA)^{-1}-I$

三、Graph-Level Tasks and Features

Graph-Level Features的目标是：
想要得到一个描述整个图结构的features。

$Kernel\ Methods$ ：

在传统的ML中， $kernel\ methods$ 被广泛用于图级预测。

该方法的中心思想是：
设计一个核函数来用于图级任务的完成，而不是设计特征向量。

$Ker n e l s$ 的简单介绍：

$k er n e l$ $K(G,G^{'})∈R$ ，其值表示图 $G$ 和 $G^{'}$ 的相似度
存在图级的特征表示 $\phi(\cdot)$ 使得： $K(G,G^{'})=\phi(G)^T\phi(G^{'})$
- $\phi(\cdot)$ 可以不被显示的给出，所以定义了核函数就可以用于机器学习模型(如 $kernel\ SVM$ )

$Graph\ Kernels$ ：用于衡量两张图之间的相似程度。具体的核函数方法有以下两种：

$Graphlet\ Kernel$
$Weisfeiler-Lehman\ Kernel$

当然还有其他核函数，本文不做介绍：

Random-walk kernel
Shortest-path graph kernel
And many more…

$Graph\ Kernel$ 的思路：

先设计图级的特征向量 $\phi(G)$ 。
在通过 $\phi(G)^T\phi(G^{'})$ 得到核函数值

关键思想： Bag-of-Words (BoW) for a graph

首先了解什么是Bag-of-Words：
在文本任务中，会简单的使用单词的数量作为该文本的特征向量。
如下面的句子：
$S=“I\ am\ Sam,I\ am\ batman"$
我们可以用下面的向量标识该文本：
$\phi(S)=\begin{matrix} \ \ \ \ \ \ \ I \ \ \ \ \ am \ \ \ \ Sam \ \ batman \\ \begin{bmatrix} 2 && 2& &1&&1 \\ \end{bmatrix} \\ \end{matrix}$

可以将图的结点当作单词，然后使用 $BO W$ ；如下图，由于两个图都有4个节点，所以得到了两个不同图的相同特征向量。
在这里插入图片描述

我们也可以将图结点的度作为单词，使用 $BO W$ ；如下图：
在这里插入图片描述

Graphlet Kernel和Weisfeiler−Lehman Kernel都运用了 $\color{red}{Bag-of-*}$ 的思想表示一张图， $*$ 是一个比结点度、结点数量更复杂的度量。

$Graphlet\ Kernel$ ：

思路：
计算图中不同的 $g r a p h l e t s$ 的数量。

注意：
图级的 $g r a p h l e t s$ 和结点级的 $g r a p h l e t s$ 在定义上有些不同：

图级的graphlet中的 $g r a p h l e t$ 可以是不连通的，而结点级的 $g r a p h l e t$ 必须是连通的。
图级的 $g r a p h l e t$ 不需要指定根节点。

例子：

当图的节点个数为3时，有4个 $g r a p h l e t$ ；如下图：
在这里插入图片描述
当图的节点个数为4时，有11个 $g r a p h l e t$ ；如下图：

给定图 $G$ ，使用 $g_k=(g_1,g_2,\cdots,g_{nk})$ 表示节点至多为 $k$ 的 $g r a p h l e t$ 列表。

并定义 $G$ 的 $graphlet\ count\ vector$ 为 $f_G∈R^{n_k}$ ，定义如下：

$f_G)_i=G中存在g_i的诱导子图的个数$

以 $k = 3$ 为例，如下图：

在这里插入图片描述
给定两个图 $G、G^{'}$ ， $graphlet\ kernel$ 的计算公式如下：

$K(G,G^{'})=f_G^Tf_{G^{'}}$

当 $G$ 和 $G^{'}$ 的节点数量相差很大时， $f_G$ 和 $f_{G^{'}}$ 里面的值的数量级也会相差很大，所以在 $graphlet\ kernel$ 的计算前先对其使用归一化：

$h_G=\frac{f_G}{Sum(f_G)}，K(G,G^{'})=h_G^Th_{G^{'}}$

$graphlet\ kernel$ 的缺点：

$g r a p h l e t$ 的计数是很昂贵的：

对于一个大小为n的图，通过枚举计算大小为k的graphlets需要n^k
子图同构检验是一个 $NP - ha r d$ 问题

下面介绍一个更加高效的 $graph\ kernel$ :Weisfeiler−Lehman Kernel

$Weisfeiler−Lehman\ Kernel$ ：

该方法的目标是：
设计一个更加高效的图特征描述向量 $\phi(\cdot)$

思想：
使用邻域结构迭代丰富节点信息。

实现算法: $Color\ refinement$

给定一个图 $G$ 和一个顶点集 $V$
为每个节点 $v$ 都设置为一个随机的颜色 $c^(0)(v)$
通过下式迭代的更新节点的颜色：
$c^{(k+1)}_{(v)}=HASH(\{c^{(k)}(v),c^{(k)}(u)_{u∈N(v)}\})$
- $H A S H ()$ 表示为一个哈希函数
- 通过上一轮迭代的顶点颜色和其邻居的颜色作为hash函数的输入，通过hash函数将不同的输入映射为不同的颜色
经过 $K$ 步色彩迭代， $c^{(K)}_{(v)}$ 可以获取 $K - h o p$ (K跳)邻域的节点结构信息