HeterGCL-Graph Contrastive Learning Framework on Heterophilic Graph

news2025/4/17 9:13:23

推荐指数: #paper/⭐⭐
发表于:IJCAI24
类型：个人觉得算是图结构学习，部分思想不错

问题背景：

传统的随机增强不适合异配图。随机增强主要保留的是同配信息。这就导致在异配图用随机增强会抑制高频信息，直接使用时不合理的(这个观点引用的是arixv22的文章[2204.04874] Augmentation-Free Graph Contrastive Learning with Performance Guarantee (arxiv.org)，是否真的如他所述有待商榷)

贡献

我们揭示了传统GCL应用到异配图上的限制
1. 为了去实现异配图上的自监督学习，我们提出了使用增强-编码-对比的模式去整合结构和语义信息
模型架构
ANA结构增强
思路：首先，我们定义了ANA结构增强
$\mathbf{M}^{(l)}=\mathrm{sgn}\left[\widehat{\mathbf{A}}^{(l)}\right]-\mathrm{sgn}\left[\widehat{\mathbf{A}}^{(l-1)}\right],\\\widetilde{\mathbf{M}}^{(l)}=\mathbf{M}^{(l)}+\mathbf{I},l=1,2,\ldots,K.$
其中， $\widehat{\mathrm{A}}_{ii}^{(l)}>0$ 时，M=1。否则为0 。l=1, $\hat{A}=I$ 。这样， $\{\mathbf{M}^{(1)},...,\mathbf{M}^{(l)}\}$ 保留了邻居节点1到l层的信息。
推论假设 $\hat{A}$ 是正则化邻接矩阵的无向图， $M^l$ 记录了节点最短路径等于l的节点
如果我们直接用M去做掩码，那么，就会出现一个问题：
10.
如图，0和7之间只有一个边链接。而0和3之间有两个边连接。如果仅仅用如上M去考虑信息，就会损失掉部分有用信息。
因此，我们用如下去整合：
$\mathbf{R}^{(l,L)}=\sum_{i=l}^L\widehat{\mathbf{A}}^{(i)}.$
其中， $\mathbf{A}_{ana}^{(l)}=\widetilde{\mathbf{M}}^{(l)}\odot\mathbf{R}^{(l,L)},l=1,2,\ldots,L.$ $\odot$ 是hadamard积。

结构学习通过自适应邻居对比

由于同配节点和异配节点在GCN中会有不同的表现，我们为了获取公平的特征，就用MLP进行编码
$\mathbf{H}_0=\mathrm{MLP}(\mathbf{X}).$
提取出初步的特征后，我们通过重构的邻接矩阵进行特征传递:
$\mathbf{P}^{(l)}=\gamma_l(\mathbf{A}_{ana}^{(l)}\mathbf{H}_0)$
最终，我们得到多阶视图: $\{\mathbf{P}^{(1)},...,\mathbf{P}^{(l)}\}.$
我们引入了自适应邻居对比损失(ANCLoss)去评估本地到全局视图的互信息。
$\mathcal{L}_\mathbf{a}^{(l)}=-\frac1N\sum_{i=1}^N\log\frac{\exp\left(\boldsymbol{h}_i\cdot\boldsymbol{p}_i^{(l)}/\tau\right)}{\sum_{v_k\in\mathcal{V}}\boldsymbol{1}_{[k\neq i]}\exp\left(\boldsymbol{h}_i\cdot\boldsymbol{p}_k^{(l)}/\tau\right)}.$
由于有k层，因此，最终的对比损失为:
$\mathcal{L}_\mathrm{a}=\sum_{l=1}^K\mathcal{L}_\mathrm{a}^{(l)}.$

原始图的语义信息

$\begin{aligned}\mathbf{X}_1&=\text{FeatDrop}(\mathbf{X},p),\\\mathbf{H}_1&=\text{MLP}(\mathbf{X}_1).\end{aligned}$
FeatDrop是feature drop操作.
$\mathcal{L}_o=\underbrace{\left\|\mathrm{H}_0-\mathrm{H}_1\right\|_F^2}_{\mathrm{invariance}}+\underbrace{\lambda\left(\left\|\mathrm{H}_0^\top\mathrm{H}_0-\mathrm{I}\right\|_F^2+\left\|\mathrm{H}_1^\top\mathrm{H}_1-\mathrm{I}\right\|_F^2\right).}_{\text{decorrelation}}$
$\lambda$ 是超参

语义特征图

我们引入GMM
$p\left(\boldsymbol{h}_i\mid\boldsymbol{c}_j\right)=\frac1{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{\left\|\boldsymbol{h}_i-\boldsymbol{c}_j\right\|_2}{2\sigma^2}\right).$
c是聚类中心(center), $\sigma^2$ 是高斯分布的变量
节点特征h属于类c的概率如下计算
$p\left(\boldsymbol{c}_j\mid\boldsymbol{h}_i\right)=\frac{p\left(\boldsymbol{c}_j\right)p\left(\boldsymbol{h}_i\mid\boldsymbol{c}_j\right)}{\sum_{r=1}^kp\left(\boldsymbol{c}_r\right)p\left(\boldsymbol{h}_i\mid\boldsymbol{c}_r\right)}=\frac{\exp\left(-\frac{\left(\boldsymbol{h}_i-\boldsymbol{c}_j\right)^2}{2\sigma^2}\right)}{\sum_{r=1}^k\exp\left(-\frac{\left(\boldsymbol{h}_i-\boldsymbol{c}_r\right)^2}{2\sigma^2}\right)}$
最终，我们可以得到类分配矩阵 $R_{ij}\in \mathbb{R}^{N \times k}$
我们构造其中潜在特征损失(LFLoss)
$\mathcal{L}_{\mathrm{lf}}=\frac1{k|\mathcal{E}|}\sum_{r=1}^k\sum_{(v_i,v_j)\in\mathcal{E}}\mathrm{MSE}\left(p\left(\boldsymbol{c}_r\mid\boldsymbol{h}_i\right),p\left(\boldsymbol{c}_r\mid\boldsymbol{h}_j\right)\right).$