一.文章概述

本文研究了在XOR-CSBM数据模型的多层网络的第一层以上时，图卷积能力的基本极限，并为它们在数据中信号的不同状态下的性能提供了理论保证。在合成数据和真实世界数据上的实验表明a.卷积的数量是决定网络性能的一个更重要的因素，而不是网络中的层的数量。b.只要放置相同数量的卷积层，只要不在第一层，任何放置组合能实现相似的性能增强。c.当图相对稀疏的时候，多个图卷积是有利的。

注意，本文研究的重点是比较图卷积与不利用关系信息的传统MLP的优点和局限性。作者的设置不受异配性问题的影响，且不考虑过平滑发生的情况。

二.预备知识

数据模型

令 $n$ 表示数据点的数量， $d$ 表示特征维度。定义伯努利随机变量 $\varepsilon_1, \ldots, \varepsilon_n \sim \operatorname{Ber}(1 / 2)$ 和 $\eta_1, \ldots, \eta_n \sim \operatorname{Ber}(1 / 2)$ 。定义两个类别 $C_b=\left\{i \in[n] \mid \varepsilon_i=b\right\}$ ，其中 $\in\{0,1\}$ 。

令 $\boldsymbol{\mu}$ 和 $\boldsymbol{\nu}$ 表示 $\mathbb{R}^d$ 中的固定向量，其满足 $\|\boldsymbol{\mu}\|_2=\|\boldsymbol{\nu}\|_2$ 和 $\langle\boldsymbol{\mu}, \boldsymbol{\nu}\rangle=0$ （即 $\boldsymbol{\mu}$ 和 $\boldsymbol{\nu}$ 正交）。令 $\mathbf{X} \in \mathbb{R}^{n \times d}$ 为数据矩阵，其中每行 $\mathbf{X}_i \in \mathbb{R}^d$ 是一个独立的高斯随机向量分布 $\mathbf{X}_i \sim \mathcal{N}\left(\left(2 \eta_i-1\right)\left(\left(1-\varepsilon_i\right) \boldsymbol{\mu}+\varepsilon_i \boldsymbol{\nu}\right), \sigma^2\right)$ 。用 $\mathbf{X} \sim \operatorname{XOR}-\operatorname{GMM}\left(n, d, \boldsymbol{\mu}, \boldsymbol{\nu}, \sigma^2\right)$ 表示从该数据模型中采样的数据。

令 $\mathbf{A}=\left(a_{i j}\right)_{i, j \in[n]}$ 表示对应于图（含自环的无向图）信息的邻接矩阵，该矩阵是从一个标准的对称双块随机块模型（symmetric two-block stochastic block model）中采样的，该模块的参数为 $p$ 和 $q$ ，其中 $p$ 表示块内边概率， $q$ 表示块间边概率。作者将 $\operatorname{SBM}(n, p, q)$ 与 $\operatorname{XOR}-\operatorname{GMM}\left(n, d, \boldsymbol{\mu}, \boldsymbol{\nu}, \sigma^2\right)$ 耦合在一起，即若 $\varepsilon_i=\varepsilon_j$ ，则 $a_{i j} \sim \operatorname{Ber}(p)$ ，否则 $a_{i j} \sim \operatorname{Ber}(q)$ 。

至此，可得定义的数据模型 $(\mathbf{A}, \mathbf{X})=\left(\left\{a_{i j}\right\}_{i, j \in[n]},\left\{\mathbf{X}_i\right\}_{i \in[n]}\right)$ ，即 $(\mathbf{A}, \mathbf{X}) \sim \operatorname{XOR}-\operatorname{CSBM}\left(n, d, \boldsymbol{\mu}, \boldsymbol{\nu}, \sigma^2, p, q\right)$ 。

令 $\mathbf{D}$ 表示邻接矩阵对应的度矩阵， $N_i=\left\{j \in[n] \mid a_{i j}=1\right\}$ 表示节点 $i$ 的邻居集。

网络架构

作者的分析聚焦于带ReLU激活的MLP架构， $L$ 层网络定义如下：
$\begin{aligned} & \mathbf{H}^{(0)}=\mathbf{X} \\ & f^{(l)}(\mathbf{X})=\left(\mathbf{D}^{-1} \mathbf{A}\right)^{k_l} \mathbf{H}^{(l-1)} \mathbf{W}^{(l)}+\mathbf{b}^{(l)} \\ & \mathbf{H}^{(l)}=\operatorname{ReLU}\left(f^{(l)}(\mathbf{X})\right) \\ & \hat{\mathbf{y}}=\varphi\left(f^{(L)}(\mathbf{X})\right) . \end{aligned}$
其中 $\in [L]$ ， $\varphi(x)=\operatorname{sigmoid}(x)=$ $\frac{1}{1+e^{-x}}$ ，最后一层的输出表示为 $\hat{\mathbf{y}}=\left\{\hat{y}_i\right\}_{i \in[n]}$ 。 $\mathbf{D}^{-1} \mathbf{A}$ 表示正则化的邻接矩阵， $k_l$ 表示层 $l$ 中的图卷积数量。对于给定数据集 $(\mathbf{X}, \mathbf{y})$ ，采用二进制交叉熵来进行优化：
$\ell_\theta(\mathbf{A}, \mathbf{X})=-\frac{1}{n} \sum_{i \in[n]} y_i \log \left(\hat{y}_i\right)+\left(1-y_i\right) \log \left(1-\hat{y}_i\right)$