图神经网络——图学习

news2024/12/27 10:13:25

图学习

    • 0. 前言
    • 1. 图
    • 2. 图学习
    • 3. 图神经网络
    • 小结

0. 前言

近年来,从社交网络到分子生物学等各个领域,数据的图表示越来越普遍。图神经网络 (Graph Neural Network, GNN) 是专为处理图结构数据而设计的,要充分挖掘图表示的潜力,深入了解图神经网络至关重要。在本节中,我们将深入探讨图神经网络的基本概念,并理解为什么它们是现代数据分析和机器学习中的重要工具。为此,我们将通过以下内容全面了解 GNN。首先,我们将探讨图作为数据表示的重要性,以及为什么它们被广泛应用于计算机科学、生物学和金融学等领域。接下来,我们将深入探讨图学习的重要性,了解图学习的不同应用以及不同类型的图学习技术。最后,我们将重点介绍 GNN 模型及其独特特征以及与其他方法的区别。

1. 图

图论 (Graph theory) 是对图 (Graph) 的数学研究,是理解复杂系统和关系的基本工具。图是节点( Node, 也称为顶点)和连接这些节点的边 (Edge) 的集合的直观表示,图提供了表示实体及其关系的结构,如下图所示。

图

通过将复杂系统表示为具有交互作用的实体网络,可以分析它们之间的关系,从而更深入地了解其基本结构和模式。图在各个领域都具有广泛用途:

  • 计算机科学:图可以用来模拟计算机程序的结构,从而更容易理解系统中不同组件之间是如何相互作用的
  • 物理学:图可用于模拟物理系统及其相互作用,例如粒子之间的关系及其属性
  • 生物学:图可以用来模拟生物系统,如将新陈代谢途径作为一个由相互关联的实体组成的网络
  • 社会学:图可用于研究和理解复杂的社交网络,包括社区中个体之间的关系
  • 金融学:图可用于分析股票市场趋势和不同金融工具之间的关系
  • 工程学:图可用于模拟和分析复杂系统,如交通网络和电网

这些领域内在的包含某种关系结构。例如,图是社交网络的自然表征:节点是用户,边代表用户与用户之间的联系。除此之外,图的用途非常广泛,也可以应用于关系结构并不那么自然的领域,例如,图像可以用图来表示,如下图所示。每个像素都是一个节点,边代表相邻像素之间的关系。这样就可以将基于图的算法应用到图像处理和计算机视觉任务中。

使用图表示图像

同样,一个句子也可以转换成一个图,其中节点是单词,边代表相邻单词之间的关系。这种方法在自然语言处理和信息检索任务中非常有用,因为在这些任务中单词的上下文和含义至关重要。
与文本和图像不同,图没有固定的结构,这种灵活性也使图的处理更具挑战性。没有固定的结构意味着它们可以有任意数量的节点和边,没有特定的排序。此外,图还可以表示动态数据,动态数据的实体之间的联系会随着时间的推移而发生变化。例如,用户和产品之间的关系会随着它们之间的互动而改变。在这种情况下,节点和边会被更新,以反映现实世界中的变化,如新用户、新产品和新关系。

2. 图学习

图学习 (Graph learning) 是机器学习技术在图数据中的应用,包括一系列旨在理解和处理图结构数据的任务:

  • 节点分类 (Node classification):预测图中节点类别,模型在一组已标注节点及其属性的基础上进行训练,并利用这些信息来预测未标注节点的类别。例如,它可以根据在线用户或产品的特征对其进行分类
  • 链接预测 (Link prediction):预测图中节点对之间的缺失链接。常用于知识图谱补全,补全的目标是补全实体及其关系。例如,它可用于根据人与人之间的社交网络连接来预测人与人之间的关系
  • 图分类 (Graph classification):将不同的图归入预定义类别,模型在一组标注过的图及其属性上进行训练,并利用这些信息对未见过的图进行分类。例如,分子生物学中,分子结构可以表示为图,目标是预测它们的特性,以便进行药物设计
  • 图生成 (Graph generation):根据一组属性生成新图,在一组现有的图结构上训练一个模型,然后用它来生成新的、未见过的结构。可以应用于生成新型分子结构,生成的结构可以作为候选药物进行潜力评估和进一步研究

此外,图学习还有许多其他实际应用,例如推荐系统,图学习算法会根据用户以前与其他商品的互动和关系向用户推荐相关商品。另一个重要应用是交通预测,图学习可以通过分析不同路线和交通方式之间的复杂关系来改进行程时间预测。
图学习具有强大的应用潜力,近年来,由于大规模数据集的可用性、强大的计算资源以及机器学习和人工智能算法的突破,图学习的研究得到快速发展,主要包括以下四个技术方向:

  • 图信号处理 (Graph signal processing):将传统的信号处理方法应用于图,如图傅里叶变换和频谱分析,这些技术揭示了图的内在属性,如图的连通性和结构
  • 矩阵分解 (Matrix factorization):用于获取大型矩阵的低维表示。其目标是确定解释原始矩阵中观察到的关系的潜在模式。这种方法可以提供对数据的紧凑且可解释的表示
  • 随机游走 (Random walk):用于模拟图中实体运动的数学概念。通过模拟图中的随机游走,可以收集到节点之间关系的相关信息,常用来生成机器学习模型所需的训练数据
  • 深度学习 (Deep learning):是机器学习的一个子领域,主要研究多层神经网络。深度学习方法可以有效地将图数据编码并表示为向量,这些向量可用于各种下游任务,且性能卓越

需要注意的是,这些技术并不是相互独立的,在应用中经常会重叠。在实践中,它们可以组合起来形成混合模型,充分利用各自的优势。例如,矩阵分解和深度学习技术可以结合使用,以学习图结构数据的低维表示。
图学习中,数据集(所有机器学习技术的基本组件)至关重要。传统的表格数据集(如电子表格)以行和列的形式表示数据,每一行代表一个单独的数据点。然而,在许多现实场景中,数据点之间的关系与数据点本身同样重要,这就是图数据集的作用。图数据集将数据点表示为图中的节点,将数据点之间的关系表示为边。
以下图中的表格数据集为例,该数据集包含一个部门中五个员工的信息。每个成员都有三个特征(或属性):姓名、年龄和性别。然而,该表格并不能显示这些员工之间的联系。而在图中可以用边来表示员工之间的联系,可以了解这个部门中的关系。在多数情况下,节点之间的关系对于理解数据至关重要,因此以图的形式表示数据越来越流行。

图神经

3. 图神经网络

图神经网络 (Graph Neural Network, GNN) 是一类深度学习架构,专为图数据而设计。与主要针对文本和图像开发的传统深度学习算法不同,GNN 明确用于处理和分析图数据集。

图神经网络

GNN 已成为图学习的强大工具,并在各种任务和行业中取得了卓越的成果。例如,研究人员使用 GNN 模型识别出新的抗生素,该模型在 2,500 种分子上进行了训练,并在 6,000 个化合物库中进行了测试,其预测一种名为 halicin 的分子能够杀死许多抗生素耐药细菌,同时对人体细胞毒性较低。基于这一预测,研究人员使用 halicin 治疗感染抗生素耐药细菌的小鼠,证明了 halicin 的有效性。
那么 GNN 是如何工作的呢?以社交网络中的节点分类任务为例,如上一节中所示的部门关系图数据,在节点分类任务中,GNN 利用数据集中信息为图中的每个节点创建一个向量表示。这种表示不仅包括原始节点特征(如姓名、年龄和性别),还包括边特征(如节点间关系的强度)和全局特征(如整个图的统计数据)的信息。因此 GNN 比传统的图机器学习技术更加有效。GNN 不局限于原始特征,而是用相邻节点、边和全局特征的属性来丰富原始节点特征,使表示更加全面和有意义。然后,使用新的节点表示执行特定任务,如节点分类、回归或链接预测。
具体而言,GNN 定义了一种图卷积操作,它可以汇总来自相邻节点和边的信息,从而更新节点表示。这种操作是迭代进行的,随着迭代次数的增加,模型可以学习到节点之间更复杂的关系。下图展示了 GNN 如何利用相邻节点计算节点 1 的表示。

邻域聚合

上图提供了一个计算图的简化实例。实际上,有多种不同类型的 GNNGNN 层,每一种都有独特的结构和聚合相邻节点信息的方式。这些不同的 GNN 变体也有各自的优势和局限性,适合不同类型的图数据和任务。在选择适合特定问题的 GNN 架构时,了解图数据和任务的特征非常重要。
一般而言,GNN 和其他深度学习技术一样,GNN 模型只有应用于特定问题时才最为有效,通常这些问题具有高复杂性,例如,在数十亿个选项中向数百万客户推荐合适的产品。另一方面,有些问题,比如寻找部门中最年轻的成员,则可以在不适用任何机器学习技术的情况下解决。
此外,GNN 需要大量数据才能有效发挥作用。传统的机器学习技术更适合数据集较小的情况,因为它们对大量数据的依赖性较低。但是,这些技术的扩展性不如 GNN,由于并行和分布式训练,GNN 可以处理更大的数据集。它们可以更有效地利用额外的信息,从而得到更好的结果。

小结

在本节中,我们摘要介绍了以下三个概念:图、图学习、图神经网络。首先,我们探讨了图在表示各种数据类型时的多功能性,例如社交网络和交通网络,以及文本和图像。我们讨论了图学习的不同应用,包括节点分类和图分类,并强调了图学习技术的四个主要研究方向。最后,我们强调了图神经网络 (Graph Neural Network, GNN) 的重要性及其相对于其他技术的优越性,尤其是在大型复杂数据集方面。通过介绍这三种概念,我们旨在全面概述 GNN 的重要性以及它们成为机器学习重要工具的原因。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1350473.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[Ray Tracing: The Rest of Your Life] 笔记

前言 开年第一篇博客~ 整理了三四个小时才整理完orz。 这一部分是光线追踪三部曲的最后一部,主要介绍了蒙特卡洛积分、重要性采样等内容。场景上没有什么大的改变,基本上就是在Cornell Box中渲染的,本篇主要在加速收敛,提升渲染效…

浅析PostgreSQL与SQL Server两者间的关键性差异

市场上有各种各样的数据库可供选择,用户通常可以仔细考虑PostgreSQL与SQL Server,以便为他们的用例找出更好的选择。使用PostgreSQL进行运营的组织可能希望切换到像Microsoft SQL Server这样的数据库,因为它主要迎合不同的数据仓库解决方案、…

学Python到底能干什么?看这里就知道

学Python到底能干什么?看这里就知道 | Python是一种代表简单主义思想的语言,极其容易上手,并且功能非常强大,这也是我的第二计算机语言。 个人可以使用Python去做哪些事呢? ✅办公自动化场景: 每天要处理…

磁盘管理-------磁盘分区

目录 引导语: 一、磁盘分区概念及作用 二、磁盘分区 (一)添加磁盘 (二)创建分区 (三)创建文件系统 (四)挂载 (五)永久挂载 三、扩展分区…

ROS学习笔记(7)进一步深入了解ROS第一步

0.前提 最近在学习宾夕法尼亚大学工程学院的ROS公开课,在尽力的去融入全英语的环境(哪怕我的英语水准并不是很高)。既然是在学习,笔记也就是必须的了,当然这些笔记都是课程当中提出的问题,我去寻找后得出的…

Neuro Contamination - Cyberpunk Gaming Music Futuristic Glitchy Sci-fi

无论是展示赛博朋克未来的电影场景,还是介绍高科技武器,你的音乐选择都至关重要。这首曲子的灵感来自科幻小说,旨在让你的观众想象未来的感觉。 潜在用例:科幻游戏、赛博朋克游戏、电影预告片、动作场景和产品广告。 非常适合充…

一呼百应API实时获取商品详情的实现

一、引言 随着电子商务的飞速发展,快速准确地获取商品详情变得尤为重要。一呼百应作为一家知名的B2B采购平台,提供了丰富的商品信息和交易数据。通过一呼百应的API接口,开发者可以实时获取商品详情,为业务决策和数据分析提供有力…

8868体育助力意甲国际米兰俱乐部 发掘强力新援

意甲的国际米兰俱乐部是8868体育的合作球队之一,国际米兰俱乐部本赛季在意甲联赛中的表现非常出色。他们以不败的成绩排名联赛榜首,展现出了强大的实力和稳定性。最近,有报道称,国米已经与泽林斯基完全达成协议,双方已…

Linux实战:部署基于Postfix 与 Dovecot 的邮件系统

一、电子邮件系统简介 在电子邮件系统中,为用户收发邮件的服务器名为邮件用户代理(Mail User Agent,MUA),MTA (邮件传输代理)的工作职责是转发处理不同电子邮件服务供应商之间的邮件&#xff0…

计算机科学专业选网络安全方向咋样?

结论:慎重选择 原因:不妨看看学校相关方向的培养方案 如果学校真的是想让你成为一流网安人才的话 过来人告诉你: 计科的课你得上 不是计科的课你也得上(一般是数学课,比如密码学,数论) 还得在计算机系统基础实验…

摆烂式学习ssh

摆烂式学习ssh ssh工作原理ssh基本使用sshd配置文件密钥登录1.客户端2.服务器3.注意事项4.使用密钥登录测试 ssh高级使用技巧1.在非正规端口启动2.rsync 命令3.透过 ssh 通道加密原本无加密的服务4.以ssh信道配合x server 传递图形接口5.ssh配合virtualbox虚拟机使用技巧 ssh工…

不知道怎么使用IDEA,一篇文章带你快速上手

前言 IDEA 是由 JetBrains 公司开发的软件产品,全称为 IntelliJ IDEA,一个 Java 语言的集成开发环境。它 —— 在业界被公认为是最好的 Java 开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE 支持、Ant、JUnit、CVS 整合、代码审…

MySQL 8.0 InnoDB Tablespaces之Undo Tablespaces(UNDO表空间)

文章目录 MySQL 8.0 InnoDB Tablespaces之Undo Tablespaces(UNDO表空间)Undo Tablespaces(UNDO表空间)默认UNDO表空间添加 Undo 表空间查看Undo 相关的信息查看Undo 相关参数变量查看Undo 状态信息通过information_schema.innodb_…

css文本溢出处理——单行、多行

日常开发中,经常会遇到需要展示的文本过长,这种情况下,为了提高用户的使用体验,最常见的处理方式就是把溢出的文本显示成省略号。 处理文本的溢出的方式:1)单行文本溢出; 2)多行文本…

51单片机中TCON, IE, PCON等寄存器的剖析

在单片机中,如何快速通过名字记忆IQ寄存器中每一个控制位的作用呢? IE(interrupt enable)寄存器中,都是中断的使能位置。 其中的EA(enable all)是总使能位,ES(enable serial)是串口…

Find My帽子|苹果Find My技术与帽子结合,智能防丢,全球定位

帽子是戴在头部的服饰,多数可以覆盖头的整个顶部。主要用于保护头部,部分帽子会有突出的边缘,可以遮盖阳光。帽子亦可作打扮之用,也可以用来保护发型、遮盖秃头。可不同种类,例如贝雷帽、鸭舌帽等等。戴帽子在不同的地…

【23-24 秋学期】NNDL 作业13 优化算法3D可视化

编程实现优化算法,并3D可视化 1. 函数3D可视化 分别画出 和 的3D图 代码如下: from mpl_toolkits.mplot3d import Axes3D import numpy as np from matplotlib import pyplot as plt import torch from nndl.op import Op# 画出x**2 class Optimized…

关于Python里xlwings库对Excel表格的操作(二十四)

这篇小笔记主要记录如何【如何使用xlwings库中的“api”类设置单元格边界线型、粗细、颜色】。前面的小笔记已整理成目录,可点链接去目录寻找所需更方便。 【目录部分内容如下】【点击此处可进入目录】 (1)如何安装导入xlwings库;…

宣传照(私密)勿转发

精美的海报通常都是由UI进行精心设计的,现在有100 件商品需要进行宣传推广,如果每个商品都出一张图显然是不合理的,且商品信息各异。因此需要通过代码的形式生成海报。对此,我也对我宣传一波,企图实现我一夜暴富的伟大…