图机器学习入门:基本概念介绍

news2024/11/16 7:52:58

图机器学习(Graph Machine Learning,简称Graph ML)是机器学习的一个分支,专注于利用图形结构的数据。在图形结构中,数据以图的形式表示,其中的节点(或顶点)表示实体,边(或链接)表示实体之间的关系。

本篇文章将从基础开始介绍什么是图,我们如何描述和表示它们,以及它们的属性是什么。

图论是在18世纪由欧拉引入的,用来解决著名的柯尼斯堡大桥问题:是否有可能只穿过七座桥中的每座桥一次。

什么是图?如何定义它?

图就是一组相互连接的对象。

一个图有一组结点N和边E, n是顶点的数目,m是边的数目。连接的两个节点被定义为相邻(节点1相邻或邻接4)。当我们称网络的大小N时,通常指的是节点的数量(链路或边的数量通常称为L)。

有向与无向

图可以是无向图或有向图:

无向图:边是无向的,关系是对称的。画边的顺序并不重要。

有向图:边是有向的(也称为有向图),顶点之间的边可以有方向,可以用箭头表示(也称为弧线)。

图的基本性质

对于一个节点,我们可以将节点度(k)定义为与节点相邻的边,对于一个图,我们可以计算无向图的平均度k:

在有向网络中,定义了一个节点的入度(指指向该节点的边)和出度(指离开该节点的边),节点的总度是两者的和。我们称source节点为没有入度的节点,称sink节点为没有出度的节点。

我们可以计算平均度为:

这里的

邻接矩阵是表示图的另一种方式,其中行和列表示图节点,交集表示一个节点的两个节点之间是否存在链接。邻接矩阵的大小是n x n(顶点数)。如果Aij是节点i和j之间的链接,则Aij为1,否则为0,对于无向图,矩阵是对称的。可以看到在矩阵的对角线上没有1意味着没有自环(节点与自身相连)

对于一个节点i计算一个节点的边(或它的度),沿着行或列求和:

无向图中的总边数是每个节点的度之和(也可以是邻接矩阵中的值之和):

因为在无向图中,你要计算两次边(由于邻接矩阵是对称的,要计算两次相同的边),所以除以2

对于有向图,可以表示两个不同的邻接矩阵,一个表示入度,一个表示出度

对于一个节点,总边数是入度和出度之和:

我们计算一个节点的入度和出度以及总边数:

由于线性代数和图论之间存在联系,所以可以对邻接矩阵应用不同的操作。如果转置一个无向图的邻接矩阵,图是没有改变的因为是对称的,但如果转置一个有向图的邻接矩阵,边则进行了方向的转换。

这些矩阵非常是稀疏的,因为理论上一个节点是可以连接到所有其他节点,但这在现实生活中基本上不会发生。当所有节点都与其他节点相连时,我们称之为完全图。完全图通常用于理解图论中的一些复杂问题(连通性例子等)。

图的最大密度是一个完全图中可能关系的总数。实际密度是测量无向非完全图的密度:

理论上来说在社交网络中,每个人都可以连接到每个人,但这并没有发生。所以最终得到一个70亿行和70亿列的邻接矩阵,其中大多数条目为零(因为非常稀疏)。为什么要说这个呢?因为不是所有的算法都能很好地处理稀疏矩阵。

除了邻接矩阵,我们还可以将图表示为一个边的列表:

但是这种方法对于机器学习分析是有问题的,所以就出现了一种常用的方法:邻接表,因为邻接表对大型和稀疏的节点很有用,它允许快速检索节点的邻居。

加权图

图边还可以增加权值,边并不都是相同的,比如在交通图中,为了选择两个节点之间的最佳路径,我们将考虑表示时间或交通的权重。

自循环

图的节点是可以连接到自己的,所以必须在计算总边数时添加自循环

你也可以有一个多图,一个对节点有多条边

多重图

含有平行边的图称为多重图,或者说一个对节点有多条边

上面就是一些常见的图和表示方式,我们来做一个汇总

图的另一个重要参数是连接性(连通性)。每个节点都能被所有其他节点到达吗?连通图是指所有顶点都可以通过一条路径连接起来的图。不连通图是指有两个或多个连通分量的图

最大的隔离的节点子集被称为“孤岛”(island)。知道图是连通的还是不连通的是很重要的,有些算法很难处理不连通的图。

这可以在邻接矩阵中显示,其中不同的组件被写成对角线块(非零元素被限制在平方矩阵中)。我们称连接两个“孤岛”的链接“桥”(bridge)

如果图很小,这种视觉检查很容易,但对于一个大图,检查连通性是非常有挑战的。

双部图

我们上面所看到的图称为单部图,其中只有一种类型的节点和一种类型的关系

双部图是一种将节点划分为两个不相交集合(通常称为 U 和 V)的图。这些集合是独立的,U 集合中的每个节点都与 V 集合中的某个节点相连(每个链接只能连接一个集合中的节点到另一个集合中的节点)。因此,双部图是一种不存在 U-U 连接和 V-V 连接的图。有许多这样的例子:作者到论文(作者位于 U 集合,并且他们与他们撰写的论文即 V 集合相连)、演员(U)和他们参演的电影(V)、用户和产品、食谱和配料等。另一个例子是疾病网络,其中包括一组疾病和一组基因,只有包含已知会导致或影响该疾病的突变的基因才与该疾病相连。另一个例子是匹配,双部图可用于约会应用程序。对于一个有两组节点的双部图(U 有 m 个节点,V 有 n 个节点),可能的边的总数是 m*n,节点的总数是 m + n。

双部图可以折叠成两个单独的网络,U 的投影和 V 的投影。在 U 的投影中,如果两个节点连接到同一个 V 节点,则它们相连(V 投影的原理相同)。

如果需要,我们也可以构建一个三部图。总的来说,你可以拥有超过三种类型的节点,通常我们讲的是 k-部图。这种类型的图扩展了我们对双部图的看法。

异构图

异构图(也称异质图)是一种具有不同类型的节点和边的图。

平面图

如果一幅图可以绘制成没有任何边相交的形式(对于图来说,如果可以以这种方式绘制,它被称为平面表示),则可以将其视为平面图。即使绘制时边相交,图也可以是平面的。看这个例子,这幅图可以重新绘制成平面表示。

为什么知道我们是否可以有平面表示很有用?最常用的一个例子是绘制电路版,要保证电路不会相交。

循环图与非循环图

线路 (walk) 是节点的交替序列(u-v 的线路是从 u 开始并在 v 结束的节点序列)。路径(path)是序列中节点各不相同的线路(u-x-v 是一条路径,但 u-x-u-x-v 是线路但不是路径)。循环图是路径开始和结束于同一节点的图,因为不同的算法都有循环问题(所以有时需要通过切断一些连接将循环图转换为非循环图)。我们可以将前馈神经网络定义为有向无环图(DAG),因为DAG 总是有一个结束点(也称为叶子节点)。

总结

在本文中,我们介绍了什么是图及其主要属性,尽管图看起来很简单,但可以实现无限的变化。图是节点和边的集合;它没有顺序,没有开始也没有结束。我们可以通过它们定义不同类型的概念和数据。图还可以简洁地描述数据的许多属性,并为我们提供关于不同主题之间关系的信息。例如,我们可以为节点和边分配权重和属性。在以后的文章中,我们将讨论如何在这些网络中使用算法(以及如何表示它们)。

https://avoid.overfit.cn/post/ecbeccb28acf4271954d8c3ffe579d6a

作者:Salvatore Raieli

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1663162.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LeetCode算法】28. 找出字符串中第一个匹配项的下标

提示:此文章仅作为本人记录日常学习使用,若有存在错误或者不严谨得地方欢迎指正。 文章目录 一、题目二、思路三、解决方案四、JAVA截取字符串的常用方法4.1 通过subString()截取字符串* 一、题目 给你两个字符串 haystack 和 needle ,请你在…

某大型央企主数据项目实战,上线前后深度对比与解析

数据已成为数字化转型的核心,如何将数据转化为战略资产,是当今企业迫切需要解决的问题。其中主数据作为企业的“黄金数据”,是数据资产管理实践方式的重要切入方法之一。某大型央企成功实施了主数据管理项目,实现了从数据孤岛到一…

寻找最大价值的矿堆 - 矩阵

系列文章目录 文章目录 系列文章目录前言一、题目描述二、输入描述三、输出描述四、Java代码五、测试用例 前言 本人最近再练习算法,所以会发布一些解题思路,希望大家多指教 一、题目描述 给你一个由’0’(空地)、‘1’(银矿)、‘2’(金矿)组成的地图…

揭秘自行车对人体的神奇力量

想象一下,如果有一种魔法,能让你每施展一次就多一个小时的寿命,你会心动吗?这种魔法确实存在,它就是——骑自行车。没错,你没有听错,根据最新的研究数据,“骑行一小时,长…

vue布局设置——使用 el-drawer 打造个性化 Admin 后台布局设置

在前端开发中,我们常常需要为 admin 后台构建灵活且个性化的布局设置。今天,我要分享的是如何利用 el-drawer 来实现这样一个有趣的功能。 首先,我们来看一下主要的设置参数: 1. theme: 用于定义主题,可以根据需求切换…

政安晨:【Keras机器学习示例演绎】(四十二)—— 使用 KerasNLP 和 tf.distribute 进行数据并行训练

目录 简介 导入 基本批量大小和学习率 计算按比例分配的批量大小和学习率 政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: TensorFlow与Keras机器学习实战 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在…

电脑文件找回恢复软件分享,3款软件助力数据恢复!

使用电脑时一不小心就删除了重要文件?想找回数据却不知道应该怎么操作?众所周知,电脑的使用已经成为我们工作、学习和生活中不可或缺的工具,但是在操作时误删文件是令很多用户都头疼的问题。 怎么恢复电脑里被删除的文件呢&#…

LabVIEW天然气压缩因子软件设计

LabVIEW天然气压缩因子软件设计 项目背景 天然气作为一种重要的能源,其压缩因子的准确计算对于流量的计量和输送过程的优化具有关键意义。传统的计算方法不仅步骤繁琐,而且难以满足现场快速响应的需求。因此,开发一款既能保证计算精度又便于…

一个开源即时通讯源码

一个开源即时通讯源码 目前已经含服务端、PC、移动端即时通讯解决方案,主要包含以下内容。 服务端简介 不要被客户端迷惑了,真正值钱的是服务端, 服务是采用Java语言开发,基于spring cloud微服务体系开发的一套即时通讯服务端。…

【XR806开发板试用】试用SWD+Jlink调试

XR806开发板,只能使用编写代码,然后通过UART下载,没法在线debug, 效率会差很多,官方没有提供这一方面的资料。 先查CPU, 官方介绍是arm-china的MC1,通过armv8 Architecture refenence manual资料…

linux打包流程

因为linux有俩个python版本,我们需要切换到python3这个版本,默认是python 2.7 alias pythonpython3 切换到python3 再次执行:python -V 显示出python的版本了,然后查看pip的配置,我们打包里面需要的第三方需要放到pip…

使用IDA自带python patch的一道例题

首先看见就是迷宫 迷宫解出的路径,放在zip的文件可以得到一个硬编码 然后在原程序中,有一处很离谱 这个debugbreak就是IDA分析错误导致的 我们点进去发现里面全是nop 然后我们把我们得到的硬编码放在010里面,再用IDA打开 重新编译看汇编 你…

高性能运营级流媒体服务框架:支持多协议互转 | 开源日报 No.250

ZLMediaKit/ZLMediaKit Stars: 12.6k License: NOASSERTION ZLMediaKit 是一个基于 C11 的高性能运营级流媒体服务框架。 使用 C11 开发,避免裸指针,代码稳定可靠,性能优越。支持多种协议 (RTSP/RTMP/HLS/HTTP-FLV/WebSocket-FLV/GB28181 等…

JavaEE之线程(3)_线程的开始、中断、等待、休眠线程、线程的状态

前言 在本栏的上一节(https://blog.csdn.net/2301_80653026/article/details/138500558),我们重点讲解了五种不同的创建线程的方式,我们还介绍了Tread类的常见构造方法和常见属性,在这一节中我们将会继续介绍Tread类。…

5/11后面部分:+顺序排序+元素交换+计算每门课程的各种成绩+存放规律的数据 注意:一味的复制肯定要出问题,第2个的最后一部分有修改,注意观察

目录 第一个已经输出过一次: 第二个: 编程实现:程序功能是用起泡法对数组中n个元素按从大到小的顺序进行排序。 ​编辑的确出现了一些问题哦: ​编辑目前是可以运行,但AI不给我们通过: 最后还是我的代码获胜&#x…

苹果电脑怎么安装crossover 如何在Mac系统中安装CrossOver CrossOver Mac软件安装说明

很多Mac的新用户在使用电脑的过程中,常常会遇到很多应用软件不兼容的情况。加上自己以前一直都是用Windows系统,总觉得Mac系统用得很难上手。 其实,用户可以在Mac上安装CrossOver,它支持用户在Mac上运行Windows软件,例…

C++牛客小白月赛题目分享(1)生不逢七,交换数字,幻兽帕鲁

目录 1.前言 2.三道题目 1.生不逢七 1.题目描述 2.输入描述: 3.输出描述: 4.示例: 5.题解: 2.交换数字 1.题目描述: 2.输入描述: ​编辑 3.输出描述: 4.示例: 5.题解: 3.幻兽帕…

开源基金会AtomGit教程

大家伙,我是雄雄,欢迎关注微信公众号:雄雄的小课堂。 注册 点击链接进入官网,先注册,然后登录:https://atomgit.com/ 编辑个人资料,修改一下自己的信息,用户名后面提交代码的时候要…

frida反检测

一、frida介绍 简单来说,Frida是一个动态代码插桩框架。这意味着它能够在程序运行的时候,不改变原有程序代码的情况下,让你往里面添加自己的代码片段。这听起来可能有点像魔法,但实际上,它是通过一种叫做“HOOK”的技术…

解构复合人工智能系统(Compound AI Systems):关键术语、理论、思路、实践经验

编者按: 大模型的出现为构建更智能、更复杂的人工智能系统带来了新的契机。然而,单一的大模型难以应对现实世界中错综复杂的问题,需要与其他模块相结合,构建出复合人工智能系统(Compound AI Systems)。 本文…