NeurIPS 2023 | RGIB：对抗双边图噪声的鲁棒图学习

▐ 摘要

链接预测[1,2]是图学习的一种基础任务，用于判断图中的两个节点是否可能相连，被广泛应用于药物发现、知识图谱补全和在线问答等实际场景。尽管图神经网络（Graph Neural Network，GNN）在该问题的性能上取得了显著进步，但在图结构噪声下的差强人意的鲁棒性仍是当前深度图模型的实际瓶颈。

在鲁棒图学习方面，早期工作探索了通过邻近节点的平滑效果来提高GNN在节点标签噪声下的鲁棒性，其他方法通过随机移除边或主动选择有信息量的节点或边来达到类似的效果。然而，当将这些抗噪声方法应用于带有噪声的链接预测时，只能取得非常有限的增益。其原因在于，不同于标签噪声，这里的图结构噪声是双向的：它会自然地同时扰动输入图的拓扑结构和输出端目标边的标签，即同时存在noisy inputs和noisy labels（如下图1所示），且这种双向噪声在现实世界的图数据中是常见的[3]，如点击率预测、商品推荐等场景。

于是，我们提出一个新的挑战：如何处理双边噪声以实现鲁棒的链接预测？

图1. 双边图噪声下的链接预测问题.

首先，我们进行了一个实证研究，揭示了图结构噪声如何双向干扰输入拓扑结构和目标标签，导致性能严重下降和表征坍缩。为此，我们提出了一个信息论指导原则，即鲁棒图信息瓶颈（Robust Graph Information Bottleneck，RGIB），以提取可靠的监督信号并避免表征坍缩。与基本的信息瓶颈GIB[4,5]不同的是，RGIB进一步解耦并平衡了图拓扑、图标签和图表征之间的相互依赖性，为抵抗双边噪声的鲁棒表征构建了新的学习目标。此外，我们探索了两种实例，RGIB-SSL和RGIB-REP，利用自监督学习和数据重参数化方法的优势，分别进行隐式和显式的去噪学习。

图2. 基本GIB和本文提出的RGIB （其中A是图结构，Y是边标签，H是图表征，I为互信息）.

简言之，在本项工作中：

我们发现双边噪声会导致严重的表征坍缩和性能下降，并且这种负面影响对常见数据集和图神经网络来说是普遍存在的。据我们所知，我们是最早研究在双边噪声下链接预测鲁棒性问题的。
我们提出了一个通用学习框架RGIB，设计了新的表征学习目标以提高图神经网络的鲁棒性。我们基于不同的方法论提出了两种实现方式，即RGIB-SSL和RGIB-REP，并提出了适应性的设计和理论的分析。
RGIB在不修改GNN架构的情况下，在3种常用GNN和6个常见数据集上达到了最有效果，各种噪声场景下的AUC提升了高达12.9%，模型学到的表征分布显著恢复，并且对双边噪声更加鲁棒。

接下来，将简要地向大家分享我们近期发表在 NeurIPS 2023 上的有关双边噪声下链接预测鲁棒性的研究结果。

本项研究结果是淘天集团阿里妈妈展示外投团队与香港浸会大学韩波老师研究团队自2022年8月开始通过阿里巴巴创新研究计划（AIR），共同参与“针对大规模在线广告的可信赖深度学习” 项目的研究工作。

论文标题： Combating Bilateral Edge Noise for Robust Link Prediction

论文下载： https://openreview.net/pdf?id=ePkLqJh5kw

代码链接： https://github.com/tmlr-group/RGIB

🔍 本期话题：如何从优化的角度来解决数据噪声呢？欢迎评论区留言讨论~

1. 问题定义

为了定量研究双边图结构噪声的影响，我们在一系列GNN基准数据集上合理地模拟不同程度的扰动，详细说明见如下定义3.1。需要注意的是，目前最常采用的数据划分方式是随机地将部分边分为观测部分和预测目标部分，因此在训练集中，噪声边会被划分到输入和标签中。

双边噪声的生成（定义3.1）：假设存在一组干净的训练数据，即观察到的图，以及查询边的标签。通过向原始邻接矩阵添加边噪声，同时保持节点特征不变，生成了噪声邻接矩阵。类似地，通过向标签添加边噪声生成了噪声标签。具体而言，给定噪声比例，噪声边 () 通过将 A 中的零元素以概率翻转为一来生成。满足和。类似地，可生成噪声标签并添加到原始标签中，其中。

基于此定义，我们进行实验并发现，双边图结构噪声导致GNN的性能显著下降（见图4），而更大的噪声比率通常导致更严重的性能退化。这意味着，经过标准训练的GNN容易受到双边图结构噪声的影响，表现出严重的鲁棒性问题。此外，双边噪声带来的性能下降远远大于单边输入噪声或标签噪声的影响。

图3. 双边噪声导致显著的性能下降.

接着，我们检查GNN学习得到的表征。从图5的uniformity分布可以看出，表征在双边噪声的作用下严重坍缩，由原本较为均匀的环状分布逐步退化成了几个单点，且更高的噪声率会导致更严重的坍缩程度，这反映了噪声对于图学习的负面影响，也是最终性能下降的重要原因。

图4. 双边噪声造成严重的表征坍缩.

2. 解决方案

2.1 GIB的固有缺陷

为了增强图表征的鲁棒性并避免严重的表征坍缩，我们可以利用图信息瓶颈（Graph Information Bottleneck，GIB）[4,5] 的信息约束作为图表征优化的目标，即：

其中，超参数用于限制互信息项，以避免表征过多捕获来自的与任务无关的信息。基本的GIB可以有效地防御输入扰动，然而，它在本质上容易受到标签噪声的影响，因为它完全地保留了标签噪声的监督，所以基本的GIB不能够解决双边噪声问题。

2.2 RGIB优化目标设计

在本工作中，我们尝试对GIB进行分析和改进。注意到，基本的GIB通过直接约束来降低，以处理输入噪声。同样地，标签噪声可以隐藏在中，但是简单地约束来正则化并不理想，因为它与GIB原始方程冲突，并且也无法处理内的噪声。因此，进一步解耦、和之间的依赖关系至关重要。

注意到，噪声可以存在于、和这几个区域。分析上，我们知道：

其中是一个常数，冗余可以被最小化。因此，可以近似拆解为，和，这三个信息项的平衡可以构成双边图结构噪声问题的解决方案。

基于上述分析，我们提出了RGIB（Robust Graph Information Bottleneck），一个新的表征学习目标来平衡、两方面的监督信息，即：

其中对的约束鼓励更有信息量的表征以防止坍缩（），并限制其容量（）以避免过拟合。另外两个互信息项和，相互约束后验信息以减轻双边噪声对的负面影响。

需要注意的是，互信息项如通常是难以精确计算的。因此，我们基于不同的方法论，来给出两种实际的RGIB实现，即RGIB-SSL和RGIB-REP。其中，RGIB-SSL通过自监督正则化显式地优化表征，而RGIB-REP通过重参数化隐式地优化表征，详细设计如下。

2.3 RGIB实例化

图5. RGIB及其实例RGIB-SSL、RGIB-REP的示意.

RGIB-SSL： 图表征在监督学习范式下已经退化，自然地，我们将其修改为自监督学习的范式，通过uniformity项鼓励表征提高信息量来缓解坍缩，并配合alignment项隐式地捕捉含噪变量之间的可靠关系（见图6b），即：

其中用于平衡一个监督和两个自监督正则化项，当时，RGIB-SSL可退化为基本的GIB。和是两个增强图和的表征。

RGIB-REP： 另一种实现方式是，通过重新参数化拓扑空间和标签空间的信息，保留干净的信息并丢弃噪声部分。为此，我们通过构建隐变量，显式地建模和的可靠性，以学习一个抗噪声的（见图6c），即：

其中，隐变量和是从含噪的和中提取的干净信号。它们的补充部分和被视为噪声，满足和。当和时，RGIB-REP可退化为基本的GIB。此外，测量了选择样本的监督信号，其中分类器以作为输入而不是原始的，即。

更多技术细节请见正文。

3. 实验结果

我们提供了多维度的实验结果，以验证和理解所提的RGIB方法。

3.1 主要性能对比

如表1所示，RGIB在所有6个数据集上，在不同噪声比例下，都取得了最佳结果，特别是在Cora和Citeseer数据集上，与次佳方法相比，RGIB带来的AUC提升达12.9%。

表1. 双边噪声下实验结果展示.

表2中展示了单边噪声的实验结果。无论是针对单边输入噪声还是标签噪声，RGIB仍然超越了所有的基准方法。实验表明，双边图结构噪声可以通过统一的学习框架来建模和解决，而此前的去噪方法只能用于特定的噪声模式。

表2. 单边噪声下实验结果展示.

3.2 多方面的消融实验及深入讨论

我们进一步进行了诸多消融实验，深入探讨了所提方法在不同角度下的表现。

图6. RGIB能显著改善表征分布，降低坍缩程度.

表3. RGIB在不同超参schedule下的表现.

图7. RGIB的超参数搜索结果热力图.

表4. RGIB在对抗扰动下的实验结果.

表5. RGIB的消融实验.

除此以外，我们提供了更多的可视化及相关实验结果，感兴趣的读者请移步原文与附录部分。

4. 算法落地

本文提出的RGIB-SSL方法，在展示外投业务中进行了算法落地。在该业务中，商家广告被投放于全域互联网媒体流量上。本技术通过在预训练上对用户广告行为特征构图并约束RGIB，增强了对点击行为的预估鲁棒性，从而提升精排阶段点击率预估的准确性，提升投放广告的精准度与质量与在媒体流量出价上的准确度，使得大盘营收获得约5%的提升。该技术全面应用于展示外投的几乎所有媒体流量，覆盖数十家媒体、近百个流量资源位和数亿用户。

5. 总结及展望

本文研究了带有双边图结构噪声的链接预测问题，并发现在这种双边噪声下，GNN学习得到的表征严重坍缩。基于这一观察，我们引入了鲁棒图信息瓶颈原则RGIB，旨在通过解耦和平衡输入、标签和表征之间的互信息来提取可靠信号，以增强表征鲁棒性并避免坍缩。展望未来，可将RGIB拓展至节点预测（Node Classification）、整图预测（Graph Classification）即知识图谱推理（Knowledge Graph Reasoning）等任务上。此外，正交于本文研究的结构噪声（Structural Noise），图节点特征上的噪声（Feature Noise）同样值得关注。

▐ 参考文献

[1] D. Liben-Nowell and J. Kleinberg. The link-prediction problem for social networks. Journal of the American society for information science and technology, 2007.

[2] M. Zhang and Y. Chen. Link prediction based on graph neural networks. In NeurIPS, 2018.

[3] B. Wu, J. Li, C. Hou, G. Fu, Y. Bian, L. Chen, and J. Huang. Recent advances in reliable deep graph learning: Adversarial attack, inherent noise, and distribution shift. arXiv, 2022.

[4] T. Wu, H. Ren, P. Li, and J. Leskovec. Graph information bottleneck. In NeurIPS, 2020.

[5] J. Yu, T. Xu, Y. Rong, Y. Bian, J. Huang, and R. He. Graph information bottleneck for subgraph recognition. arXiv, 2020

▐ 团队介绍

🏷 阿里妈妈展示外投团队

阿里妈妈展示外投团队是阿里妈妈核心广告技术团队之一，也是阿里妈妈业务增长最快的团队。依托于集团庞大而真实的营销场景，以AI技术驱动实现客户商品营销，并承担集团App用户增长等业务需求。我们持续探索人工智能，联邦学习，深度学习，强化学习，知识图谱，图学习等前沿技术在外投广告和用增方面的落地应用。在创造业务价值的同时，团队近几年在ICML、NIPS、WWW、CIKM、SIGIR、KDD、NAACL等领域知名会议上发表过多篇论文。真诚欢迎对广告算法、推荐系统、NLP等方向感兴趣的同学加入我们，一起成长！

✉️ 简历投递邮箱：alimama_tech@service.alibaba.com

// 点击↓阅读原文，了解JD详细详情

🏷 香港浸会大学可信机器学习和推理组

香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成，课题组隶属于理学院计算机系。课题组专攻可信表征学习、基于因果推理的可信学习、可信基础模型等相关的算法，理论和系统设计以及在自然科学上的应用，具体研究方向和相关成果详见本组Github (https://github.com/tmlr-group)。课题组由政府科研基金以及工业界科研基金资助，如香港研究资助局杰出青年学者计划，国家自然科学基金面上项目和青年项目，以及国内外企业的科研基金。青年教授和资深研究员手把手带，GPU计算资源充足，长期招收多名博士后研究员、博士生、研究助理和研究实习生。感兴趣的同学请发送个人简历和初步研究计划到邮箱：bhanml@comp.hkbu.edu.hk。

🔍 本期话题：如何从优化的角度来解决数据噪声呢？欢迎评论区留言讨论~

END