一.文章概述
本文研究了在XOR-CSBM数据模型的多层网络的第一层以上时,图卷积能力的基本极限,并为它们在数据中信号的不同状态下的性能提供了理论保证。在合成数据和真实世界数据上的实验表明a.卷积的数量是决定网络性能的一个更重要的因素,而不是网络中的层的数量。b.只要放置相同数量的卷积层,只要不在第一层,任何放置组合能实现相似的性能增强。c.当图相对稀疏的时候,多个图卷积是有利的。
注意,本文研究的重点是比较图卷积与不利用关系信息的传统MLP的优点和局限性。作者的设置不受异配性问题的影响,且不考虑过平滑发生的情况。
二.预备知识
数据模型
令 n n n表示数据点的数量, d d d表示特征维度。定义伯努利随机变量 ε 1 , … , ε n ∼ Ber ( 1 / 2 ) \varepsilon_1, \ldots, \varepsilon_n \sim \operatorname{Ber}(1 / 2) ε1,…,εn∼Ber(1/2)和 η 1 , … , η n ∼ Ber ( 1 / 2 ) \eta_1, \ldots, \eta_n \sim \operatorname{Ber}(1 / 2) η1,…,ηn∼Ber(1/2)。定义两个类别 C b = { i ∈ [ n ] ∣ ε i = b } C_b=\left\{i \in[n] \mid \varepsilon_i=b\right\} Cb={i∈[n]∣εi=b},其中 b ∈ { 0 , 1 } b \in\{0,1\} b∈{0,1}。
令 μ \boldsymbol{\mu} μ和 ν \boldsymbol{\nu} ν表示 R d \mathbb{R}^d Rd中的固定向量,其满足 ∥ μ ∥ 2 = ∥ ν ∥ 2 \|\boldsymbol{\mu}\|_2=\|\boldsymbol{\nu}\|_2 ∥μ∥2=∥ν∥2 和 ⟨ μ , ν ⟩ = 0 \langle\boldsymbol{\mu}, \boldsymbol{\nu}\rangle=0 ⟨μ,ν⟩=0(即 μ \boldsymbol{\mu} μ和 ν \boldsymbol{\nu} ν正交)。令 X ∈ R n × d \mathbf{X} \in \mathbb{R}^{n \times d} X∈Rn×d为数据矩阵,其中每行 X i ∈ R d \mathbf{X}_i \in \mathbb{R}^d Xi∈Rd是一个独立的高斯随机向量分布 X i ∼ N ( ( 2 η i − 1 ) ( ( 1 − ε i ) μ + ε i ν ) , σ 2 ) \mathbf{X}_i \sim \mathcal{N}\left(\left(2 \eta_i-1\right)\left(\left(1-\varepsilon_i\right) \boldsymbol{\mu}+\varepsilon_i \boldsymbol{\nu}\right), \sigma^2\right) Xi∼N((2ηi−1)((1−εi)μ+εiν),σ2)。用 X ∼ XOR − GMM ( n , d , μ , ν , σ 2 ) \mathbf{X} \sim \operatorname{XOR}-\operatorname{GMM}\left(n, d, \boldsymbol{\mu}, \boldsymbol{\nu}, \sigma^2\right) X∼XOR−GMM(n,d,μ,ν,σ2)表示从该数据模型中采样的数据。
令 A = ( a i j ) i , j ∈ [ n ] \mathbf{A}=\left(a_{i j}\right)_{i, j \in[n]} A=(aij)i,j∈[n]表示对应于图(含自环的无向图)信息的邻接矩阵,该矩阵是从一个标准的对称双块随机块模型(symmetric two-block stochastic block model)中采样的,该模块的参数为 p p p和 q q q,其中 p p p表示块内边概率, q q q表示块间边概率。作者将 SBM ( n , p , q ) \operatorname{SBM}(n, p, q) SBM(n,p,q)与 XOR − GMM ( n , d , μ , ν , σ 2 ) \operatorname{XOR}-\operatorname{GMM}\left(n, d, \boldsymbol{\mu}, \boldsymbol{\nu}, \sigma^2\right) XOR−GMM(n,d,μ,ν,σ2)耦合在一起,即若 ε i = ε j \varepsilon_i=\varepsilon_j εi=εj,则 a i j ∼ Ber ( p ) a_{i j} \sim \operatorname{Ber}(p) aij∼Ber(p),否则 a i j ∼ Ber ( q ) a_{i j} \sim \operatorname{Ber}(q) aij∼Ber(q)。
至此,可得定义的数据模型 ( A , X ) = ( { a i j } i , j ∈ [ n ] , { X i } i ∈ [ n ] ) (\mathbf{A}, \mathbf{X})=\left(\left\{a_{i j}\right\}_{i, j \in[n]},\left\{\mathbf{X}_i\right\}_{i \in[n]}\right) (A,X)=({aij}i,j∈[n],{Xi}i∈[n]),即 ( A , X ) ∼ XOR − CSBM ( n , d , μ , ν , σ 2 , p , q ) (\mathbf{A}, \mathbf{X}) \sim \operatorname{XOR}-\operatorname{CSBM}\left(n, d, \boldsymbol{\mu}, \boldsymbol{\nu}, \sigma^2, p, q\right) (A,X)∼XOR−CSBM(n,d,μ,ν,σ2,p,q)。
令 D \mathbf{D} D表示邻接矩阵对应的度矩阵, N i = { j ∈ [ n ] ∣ a i j = 1 } N_i=\left\{j \in[n] \mid a_{i j}=1\right\} Ni={j∈[n]∣aij=1}表示节点 i i i的邻居集。
网络架构
作者的分析聚焦于带ReLU激活的MLP架构,
L
L
L层网络定义如下:
H
(
0
)
=
X
f
(
l
)
(
X
)
=
(
D
−
1
A
)
k
l
H
(
l
−
1
)
W
(
l
)
+
b
(
l
)
H
(
l
)
=
ReLU
(
f
(
l
)
(
X
)
)
y
^
=
φ
(
f
(
L
)
(
X
)
)
.
\begin{aligned} & \mathbf{H}^{(0)}=\mathbf{X} \\ & f^{(l)}(\mathbf{X})=\left(\mathbf{D}^{-1} \mathbf{A}\right)^{k_l} \mathbf{H}^{(l-1)} \mathbf{W}^{(l)}+\mathbf{b}^{(l)} \\ & \mathbf{H}^{(l)}=\operatorname{ReLU}\left(f^{(l)}(\mathbf{X})\right) \\ & \hat{\mathbf{y}}=\varphi\left(f^{(L)}(\mathbf{X})\right) . \end{aligned}
H(0)=Xf(l)(X)=(D−1A)klH(l−1)W(l)+b(l)H(l)=ReLU(f(l)(X))y^=φ(f(L)(X)).
其中
l
∈
[
L
]
l \in [L]
l∈[L],
φ
(
x
)
=
sigmoid
(
x
)
=
\varphi(x)=\operatorname{sigmoid}(x)=
φ(x)=sigmoid(x)=
1
1
+
e
−
x
\frac{1}{1+e^{-x}}
1+e−x1,最后一层的输出表示为
y
^
=
{
y
^
i
}
i
∈
[
n
]
\hat{\mathbf{y}}=\left\{\hat{y}_i\right\}_{i \in[n]}
y^={y^i}i∈[n]。
D
−
1
A
\mathbf{D}^{-1} \mathbf{A}
D−1A表示正则化的邻接矩阵,
k
l
k_l
kl表示层
l
l
l中的图卷积数量。对于给定数据集
(
X
,
y
)
(\mathbf{X}, \mathbf{y})
(X,y),采用二进制交叉熵来进行优化:
ℓ
θ
(
A
,
X
)
=
−
1
n
∑
i
∈
[
n
]
y
i
log
(
y
^
i
)
+
(
1
−
y
i
)
log
(
1
−
y
^
i
)
\ell_\theta(\mathbf{A}, \mathbf{X})=-\frac{1}{n} \sum_{i \in[n]} y_i \log \left(\hat{y}_i\right)+\left(1-y_i\right) \log \left(1-\hat{y}_i\right)
ℓθ(A,X)=−n1i∈[n]∑yilog(y^i)+(1−yi)log(1−y^i)
三.理论分析结果
设置Baselines
作者设置了一个没有图信息的对比baseline。作者用用混合模型的均值与数据点数 n n n之间的距离来表征XOR-GMM数据模型的分类阈值。令 Φ ( ⋅ ) \Phi(\cdot) Φ(⋅) 表示标准高斯的累积分布函数。
重要结论:若两个类的特征均值相距不超过 O ( σ ) O(\sigma) O(σ),那么在压倒性的概率下,有常数比例的点被错误分类。
通过图卷积进行改进
本节阐述了图卷积在多层卷积中的影响。
重要结论:多层模型中将图卷积放置在第一层会损害分类精度,下图(a)展示的的便是第一层中没有图卷积的网络,可见不同类别的数据并不是线性可分的,对其进行图卷积后,两个类的均值会坍缩到同一点,如图(b)。然后,在最后一层使用图卷积则不同,由于输入由线性可分的转换特征组成,图卷积有助于分类任务。
图卷积的放置
多层网络分类能力的提高取决于卷积的数量,而不取决于卷积放置的位置。对于XOR-CSBM数据模型,在任何组合中在第二层和/或第三层之间放置相同数量的卷积,可以在分类任务中实现与上节相似的改进。
四.实验
本节通过实验证明第四节中的结论。
合成数据集
图卷积的位置并不重要,只要它不在第一层,(a)和(b)表明对于在第二层或第三层中有一个图卷积的所有网络,以及在第二层和第三层之间的任何组合中有两个图卷积的所有网络,性能是相互相似的。
在图是dense的情况下,两个图卷积并不比一个图卷积获得显著的优势。(参见图©和图(d))
真实世界数据集
作者在论文引用网络Cora、Citeseer和Pubmed上进行实验,得到结论为:
- 利用图的网络比不使用关系信息的传统MLP表现得明显更好。
- 在任何层中具有一个图卷积的所有网络都实现了相互相似的性能,并且在任何位置组合中具有两个图卷积的所有网络都实现了相互相似的性能。