综述 | 走向图对比学习:综述与展望

news2024/11/19 3:30:08

【摘要】近年来,图的深度学习在各个领域取得了显著的成功。然而,对带注释的图形数据的依赖仍然是一个很大的瓶颈,因为它的成本过高且耗费时间。为了应对这一挑战,图的自监督学习(SSL)得到了越来越多的关注,并取得了重大进展。SSL使机器学习模型能够从未标记的图形数据中产生信息表示,从而减少对昂贵的标记数据的依赖。虽然基于图的SSL已被广泛采用,但一个关键组件——图对比学习(GCL)在现有文献中尚未得到彻底研究。因此,本调查旨在通过提供一个关于GCL的专门调查来填补这一空白。我们提供了GCL的基本原则,包括数据增强策略,对比模式和对比优化目标的全面概述。此外,我们探索了GCL对数据高效图学习的其他方面的扩展,如弱监督学习、迁移学习和相关场景。我们还讨论了跨领域的实际应用,如药物发现,基因组学分析,推荐系统,最后概述了这一领域的挑战和潜在的未来方向。

原文:Towards Graph Contrastive Learning: A Survey and Beyond
地址:https://arxiv.org/abs/2405.11868v1
代码:未知
出版:J. ACM
机构: Peking University, University of International Business and Economics

1 研究问题

本文研究的核心问题是: 如何全面综述图对比学习领域的最新进展,并探讨其在相关应用场景下的扩展。

假设一家金融公司希望根据客户的交易网络来预测客户的信用风险。传统方法需要大量的人工标注数据来训练图神经网络模型,成本很高。如果能利用图对比学习从未标注的交易网络中自监督地学习到信息丰富的节点表征,就可以大大减少对标注数据的依赖,提高模型的泛化能力。但目前缺乏一个全面的综述来梳理图对比学习的各种技术路线及其优劣。

本文研究问题的特点和现有方法面临的挑战主要体现在以下几个方面:

  • 图对比学习涉及的技术要素众多,包括数据增强策略、对比模式、优化目标函数等,缺乏系统性的总结。

  • 图对比学习在弱监督、迁移学习等数据高效场景下的应用尚不成熟,有待进一步探索。

  • 已有的综述性文章大多泛泛而谈,未能聚焦图对比学习领域,缺乏深度和前沿性。

针对这些挑战,本文提出了一种系统全面且富有前瞻性的"GCL综述与拓展"思路:

本文首先从数据增强、对比模式、优化目标三个维度,对自监督图对比学习的基本原理进行了全景式梳理,并配以数学化的总结。这就像是为图对比学习搭建了一个"技术百科全书",方便研究者快速查阅和比较不同技术路线。

其次,本文将视野拓展到弱监督学习、迁移学习等数据高效场景,探讨了图对比学习在其中的应用模式,这就像是为图对比学习插上了"领域适配"的翅膀,大大拓宽了其应用范围。

再次,本文列举了图对比学习在药物发现、生物信息、推荐系统等诸多领域的实际应用案例,使得这一理论工作"落地生根"。这就像是用一系列"应用明星"来印证图对比学习的实用价值。

最后,本文对图对比学习的局限性进行了反思,并展望了一些有待进一步探索的研究方向,这就像是在俯瞰全局后,为后续研究指明了"攻坚"的突破口。

2 研究方法

图对比学习(Graph Contrastive Learning, GCL)是一种自监督表示学习范式,通过最大化相似图对之间的一致性,提取图数据的有效表示。本节将从三个方面阐述GCL在自监督学习中的基本原理,并介绍其在弱监督学习、迁移学习等数据高效场景下的应用。

2.1 GCL在自监督学习中的基本原理

2.1.1 图数据增强策略

图数据增强旨在为给定图生成语义一致的正样本,以供对比学习使用。图增强策略可分为基于规则和基于学习两大类。

基于规则的方法通过预定义规则修改图数据。简单的策略包括随机扰动/遮蔽节点/边及其特征,如DropEdge随机移除一定比例的边:

其中为扰动率。另一种常见策略是随机采样子图,保留节点子集和对应边关系。复杂的方法如利用图扩散过程,基于热核、PPR等扩散核建立节点间高阶连接。

基于学习的方法通过数据驱动方式学习增强策略,如图结构学习、图对抗训练和图理由(rationale)发现。图结构学习将图结构视作可学习参数,识别最优的增强图。对抗训练旨在提升模型抵御对抗扰动的能力。图理由作为图的关键子集,可直接用于对比学习。

两类方法相比,基于规则的方法简单直观,但可能引入噪声;而基于学习的方法噪声更小,但训练开销大。实践中需权衡有效性和计算效率。

2.1.2 对比模式

GCL通过不同尺度图视图间的对齐,增强语义相似实例的一致性表示。按粒度从粗到细,视图可分为图级、子图级和节点级。据此,对比模式分为同尺度对比和跨尺度对比两类。

同尺度对比分为全局、上下文和局部三类。全局对比对齐不同图表示,如SimGRACE将原图与其扰动视图对比,无需显式数据增强。上下文对比聚焦子图粒度,如GCC对比同一节点和其他节点的k-hop子图。局部对比专注学习节点表示,如GRACE基于结构和属性视图,用对比损失函数增强节点表示的一致性:

其中为视图内/间负样本。

跨尺度对比包含局部-全局、局部-上下文和上下文-全局三类,分别关注不同粒度的对齐。以局部-全局为例,DGI利用互信息最大化准则,对比节点表示和图表示:

总的来说,同尺度对比简单直观,适合齐次图;跨尺度对比能建模多粒度语义,适合异质图。实践中可结合图类型和任务需求灵活选择。

2.1.3 对比优化目标

为优化GCL,需定义对比目标函数,度量正负样本间的相似性差异。常见方法分为对比式和非对比式两类。

对比式方法同时需要正负样本。基于InfoNCE的方法利用随机扰动生成增强视图,将同源节点视作正样本,其他节点为负样本。针对节点,InfoNCE损失定义为:

其中和分别为正负样本集,为相似度函数。基于散度的方法比较正负样本分布的差异,如JS散度。基于距离的方法如Triplet Margin直接比较正负样本间的相对距离。

非对比式方法不需显式构造负样本。基于知识蒸馏的方法如BGRL,通过在线和目标两个网络互相提升学习。基于冗余减少的方法如VICReg,联合方差、不变性和协方差最小化准则,对不同视图特征间的交叉相关矩阵进行冗余减少。

对比式方法需负样本数足够多时性能最佳,但构造负样本的计算开销大。非对比式方法省去了负样本构造,但理论基础有待加强。实践中需平衡性能和效率。

2.2 GCL在数据高效学习中的应用

除经典的自监督学习外,GCL在弱监督、迁移学习等数据高效场景下也有广泛应用。本节以弱监督图学习和图迁移学习为例展开介绍。

2.2.1 弱监督学习

图弱监督学习(Graph Weakly Supervised Learning, GWSL)利用标记和未标记数据,在低资源场景下提升模型性能。现有工作主要利用GCL完成两大功能:有效利用稀疏标签,充分挖掘无标签结构信息。

对于标签利用,一类方法利用已知类别对节点表示施加约束。如KGNN中,对比网络给出后验分布,而GNN给出似然,目标为最小化两者的KL散度:

另一类方法先基于节点特征计算标签中心,再以此作为软监督信号。如SimP-GCN基于KNN图构建软标签中心,指导对比学习。

对于结构集成,一类方法关注如何充分融合标签和结构的一致信息,通常将有监督损失和自监督对比损失相加联合优化:

DualGraph通过迭代标注和检索,识别并融合标签-结构一致信息。另一类方法关注如何缓解二者不一致带来的冲突。如 InfoGraph 先在不同尺度对齐节点-图结构,再与标签信息融合。

总的来说,GCL 为 GWSL 带来了新思路,有助于在标签稀疏时学到更鲁棒的节点表示。不同任务可灵活选择合适的标签利用和结构集成策略。

2.2.2 迁移学习

图迁移学习旨在源域数据和目标域数据分布不一致时,提升目标域上的推理性能。GCL 可从域间对齐/区分和域内特征提取两方面改善迁移学习效果。

域间方法通过源-目标域节点对比,挖掘域共性或特性。对齐型方法构造源域中的目标一致样本,或目标域中的源一致样本,再进行对比。如CoCo 生成目标域伪标签,基于此构造跨域正样本对:

区分型方法基于邻域相似度等构造正常-异常图样本,通过对比使

3 总结后记

本论文针对图表示学习中的图对比学习(GCL)方法进行了全面综述。文章系统总结了GCL的基本原理,包括数据增广策略、对比模式和优化目标等方面。并进一步探讨了GCL在弱监督学习、迁移学习等数据高效学习场景中的扩展应用。最后,讨论了GCL在药物发现、基因组学分析、推荐系统等实际领域的应用,展望了该领域面临的挑战和未来的发展方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1683574.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

hubilder Android模拟器华为手机连接不上

APP真机测试注意点: 1. 同一个局域网下 2. 手机连接USB模式(华为选择USB配置:音频来源) ,开发者模式 3. 实在不行重启HBuilderX再运行真机 可是卡在了“正在安装手机端HBuilder调试基座...” 就没反应了?&…

rust的版本问题,安装问题,下载问题

rust的版本、安装、下载问题 rust版本问题, 在使用rust的时候,应用rust的包,有时候包的使用和rust版本有关系。 error: failed to run custom build command for pear_codegen v0.1.2 Caused by: process didnt exit successfully: D:\rus…

功耗相关总结

文章目录 功耗相关的使用场景MCU中低功耗的应用RTOS中低功耗应用 功耗相关的使用场景 目前越来越多的嵌入式设备采用电池进行供电,而不是跟台式电脑一样,可以一直连接着电源。在电池供电的场景下,对功耗的要求很高,工程师们尽量希…

查看当前Shell系统环境变量

查看当前Shell系统环境变量 查看命令 env效果 查看Shell变量(系统环境变量自定义变量函数) 命令 set效果 常用系统环境变量 变量名称含义PATH与windows环境变量PATH功能一样,设置命令的搜索路径,以冒号为分割HOME当前用户主目录:/rootSH…

uniapp中使用 iconfont字体

下载 iconfont 字体文件 打开 iconfont.css 文件,修改一下 把文件 复制到 static/iconfont/… 目录下 在App.vue中引入iconfont 5. 使用iconfont 使用 iconfont 有两种方式, 一种是 class 方式, 一种是使用 unicode 的方式 5.1 使用 class 的…

DNS域名解析与智能选路

要开始访问公网了!! 你在访问百度的时候,你也不知道百度的IP地址是啥,你只知道他的域名是baidu AD这台设备可以做入站的负载平衡,AD来选择你访问的时候是用联通网还是电信网,避免卡顿 pc并不会域名解析&…

在aspNetCore中 使用System.Text.Json的定制功能, 将定制化的json返回给前端

C# 默认大写, 而大部分的前端默认小写, 这时候可以如此配置: builder.Services.AddControllers().AddJsonOptions((opt) > {opt.JsonSerializerOptions.PropertyNamingPolicy System.Text.Json.JsonNamingPolicy.CamelCase;opt.JsonSerializerOptions.WriteIndented true…

案例 | 澳鹏自动驾驶标注方案入选虎嗅智库行业报告

随着自动驾驶技术发展及方案演进,市场对于数据标注的数量和质量的需求都呈现指数级增长。传统的手工标注已不能满足标注需求,自动标注伴随大模型的发展应运而生。 在这一背景下,虎嗅智库发布《自动驾驶数据标注技术落地洞察》,并…

PHP在线制作表白网源码

PHP在线制作表白网源码,送女友个惊喜吧,无数据库,上传就能用,后台/admin,账号密码都是admin 百度网盘:https://pan.baidu.com/s/1rbD2_8IsP9UPLK-cdgEXfA?pwdre59

【Qt 学习笔记】Qt常用控件 | 布局管理器 | 空白项Spacer

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt常用控件 | 布局管理器 | 添加空白Spacer 文章编号:Qt 学…

欢聚笔试题求助帖

事情是这样的,这段时间一直在求职投简历,期望在暑假之前接到一份大数据开发的实习工作。投了很多公司,然后就收到了欢聚的笔试邀约,HR说要我一天之内做出来,恰巧第二天还有组会要汇报,我就先放下了&#xf…

使用TensorFlow Lite Micro流程记录(带源码)

文章目录 0 关于tflite micro1 克隆仓库2 编译静态库3 模型转换4 编写工程5 编写demo5.1 进行算子注册 5.2 推理过程6 debug记录6.1 缺少算子 6.2 注册表太小6.3 段错误6.4 进一步减小库体积 7 实际部署 0 关于tflite micro 关于tflite micro在这里接不做过多介绍了&#xff0c…

闲话 .NET(4):为什么要跨平台?

前言 .NET Core 有一个关键词就是跨平台,为什么要跨平台呢?Windows 操作系统不香吗?今天我们来聊聊这个 原因一:安全考虑 Windows OS 是闭源的,而 Linux 是开源的,因此有些公司的技术负责人就认为 Linux…

关于解决Qt在安装的时候没有勾选sources组件的方法

关于解决Qt在安装的时候没有勾选sources组件的方法 一、引言 在安装数据库连接到qt的时候发现没有sources文件夹,原来是安装的时候没有勾选sources组件,发现问题后找到了维护qt组件的安装方式,特此记下来 二、分析原因 首先在安装的时候就…

专访联影智能联席CEO沈定刚:探索脑影像 AI 的无限可能

如何理解联影智能的全栈全谱、临床导向? 作者 |吴彤 编辑 |麦广炜 若要细数沈定刚的过往身份,那么堪可谈论的绝不只有一种。 国内医疗AI龙头企业联影智能联席CEO、上海科技大学生物医学工程学院创始院长,两大重要任职…

CAD2023 2024 2025以上版本出现无法运行 AutoCAD,原因可能如下1) 此版本的 AutoCAD 安装不正确

错误提示如下 此版本的 AutoCAD 安装不正确 缺少依赖组件Microsoft Edge webview2 Runtime 缺少依赖组件 Microsoft.NET跟You must install .NET Desktop Runtime 打开autoremove,点击扩展,输入 无法运行,点击搜索 你的软件属于什么版本…

嵌入式学习——3——TCP-UDP 数据交互,握手,挥手

1、更新源 cd /etc/apt/ sudo cp sources.list sources.list.save 将原镜像备份 sudo vim sources.list 将原镜像修改成阿里源/清华源,如所述 阿里源 deb http://mirrors.aliyun.com/ubuntu/ bionic main …

解锁产品迭代新速度:A/B测试在AI大模型时代的应用

本文作者为火山引擎A/B测试平台DataTester的资深研发工程师刘明瑶。作为火山引擎数智平台VeDI旗下的核心产品,DataTester源于字节跳动长期的技术和业务沉淀,目前已经服务了数百家企业,助力企业在业务增长、用户转化、产品迭代、策略优化以及运…

CCF20220901——如此编码

CCF20220901——如此编码 代码如下&#xff1a; #include<bits/stdc.h> using namespace std; int main() {int n,m,cnt1,a[1000],c[1000]{1};cin>>n>>m;for(int i1;i<n;i){cin>>a[i];cnt*a[i];c[i]cnt;}int b[1000]{0};for(int i1;i<n;i)b[i](…

2种方法将集合数据List构建成树形结构

文章目录 递归循环构建树结构hutool.TreeUtil.build构建树结构 递归循环构建树结构 先查最外层树节点数据&#xff0c;再递归遍历每一层子节点数据 public ApiResultDto<List<LocationDto>> getTreeByParams(LocationSearchDto searchDto, SecurityUser user) {// …