论文阅读11——《Mutual Boost Network for Attributed Graph Clustering》

news2025/3/25 0:11:23

原文地址：论文阅读11——《Mutual Boost Network for Attributed Graph Clustering》

作者：Xiaoqiang Yan, Xiangyu Yu, Shizhe Hu, Yangdong Ye

发表时间：预印本

论文地址：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4195979

代码地址：https://github.com/Xiaoqiang-Yan/MBN

创新

存在问题

现有区分表示的方法受到节点和结构特征之间差异的限制。
如何保证由节点和结构特征产生的聚类分配的一致性仍然是一个具有挑战性的问题，这往往会导致聚类性能下降。现有方法忽略了这个问题。

解决方案

提出一种新的双通道属性图聚类网络(MBN)，它由自编码器和图自编码器组成，可以相互学习和交互，实现聚类性能的相互提升。
设计一种表示增强机制，以促进异构节点和结构特征的传播和融合。
首先提出一种新的表示增强模块，将来自节点和结构特征的异构信息传播出去，用于学习综合表示。然后通过对比聚类分配，设计了一致性约束，提供了相互指导，使聚类分配趋于一致。最后在一个统一的框架下，以自监督的方式，同时优化表示学习和聚类分配过程。

观点

属性图聚类任务的关键前提是学习节点的判别表示。
现有的GCN虽然取得了很大的成功，但是由于过度依赖于邻居节点的信息集成，在拓扑与节点特征的融合方面并不理想，存在过平滑问题。
自编码器和图自编码器学到的表示融合后是全面和可靠的，可以产生高置信度的辅助聚类分配。
现有的方法不能充分利用节点和拓扑结构来学习鉴别性的表示，他们不能保证由异构节点和结构特征产生的不同分配的聚类一致性，从而导致聚类性能不佳。

模型

在这里插入图片描述

自编码器模块

没啥好说的了，写了这么多篇论文阅读，都有自编码器模块，可以去前面的文章看。最终得到一个属性的重建损失，用于后面的模型训练。

图自编码器模块

与DFCN中IGAE模块类似，使用图卷积作为编码器部分，同时解码器部分也用图卷积：
$\begin{aligned} Z^{(l+1)}&=\varphi(\widetilde{A}Z^{(l)}U_e^{(l)}) \\ \hat{Z}^{(k+1)}&=\varphi(\widetilde{A}Z^{(k)}U_d^{(k)}) \end{aligned}$
重建邻接矩阵：
$\hat{A}=\sigma(ZZ^\top)+\sigma(\hat{Z}\hat{Z}^\top)$
最后通过以下损失函数进行训练：
$\begin{aligned} &L_{GAE} =L_f+\delta L_a \\ &L_f = \frac{1}{2N}\|\widetilde{A}X-\hat{Z}\|_2^2 \\ &L_a = \frac{1}{2N}\|\widetilde{A}-\hat{A}\|_2^2 \end{aligned}$
分别表示GAE的损失函数、特征表示Z的重建损失、邻接矩阵的重建损失。

表示增强模块

用于传播和融合异构节点和结构信息，以获得更全面、更有区分度的表示。该模块包括两个步骤：层间信息传播和结构信息融合。首先，为了从图数据中提取更多的鉴别信息，将节点的纯属性特征集成到GCN中进行结构表示学习，对具有结构信息的特征信息的传播，通过线性计算将AE中的特征注入到GAE模块对应的层，这里说这么多其实还是SDCN中的传递算子进行的操作，公式也不展示了。

为了进一步提高表示质量，利用一个类似图卷积的算子来从邻居中集成结构信息：
$Z=\widetilde{A}(Y^{(L)}+Z^{(L)})$
其实就是用归一化拉普拉斯算子 $\widetilde{A}$ 对自编码器的最后一层嵌入表示 $Y^{(L)}$ 和图自编码器的最后一层嵌入表示 $Z^{(L)}$ 进行信息聚合的操作，所谓类似图卷积，就是将图卷积神经网络中的参数矩阵看作单位矩阵 $I$ 。

自监督模块

这里与之前模型不同的是，没有使用自编码器嵌入 $Y$ 的辅助分布，而是使用图自编码器嵌入 $Z$ 的目标分布 $Q_Z$ 和辅助分布 $P_Z$ ，对应的损失函数为：
$\begin{aligned} L_{clu}&=KL(P_Z\|Q_Z)=\sum\limits_i\sum\limits_jp_{ij}\log\frac{p_{ij}}{q_{ij}} \\ L_{con}&=KL(Q_Z\|Q_Y)=\sum\limits_i\sum\limits_jq_{ij}\log\frac{q_{ij}}{q_{ij}'} \end{aligned}$
总的损失函数：
$\begin{aligned} &L=L_{rec}+\alpha L_{clu} + \beta L_{con} \\ &L_{rec}=L_{GAE}+L_{AE} \end{aligned}$
最终的聚类结果使用自编码器嵌入 $Y$ 的目标分布 $Q_Y$ 作为聚类结果：
$r_i=\arg\max_jq_{ij}$