摘要
图论方法已被证明是理解、表征和量化复杂大脑网络的有效工具。然而,定量比较两个图形的方法却较少受到关注。在一些网络神经科学应用中,比较大脑网络确实是必不可少的。在这里,本研究讨论了近年来用于比较大脑网络的技术现状、挑战以及一系列分析工具。本文首先介绍了脑网络应用中的图形相似性问题,然后描述了现有指标和算法的方法背景,评估了它们的优势和局限性。此外,还报告了从正常大脑网络中获得的具体应用结果。更准确地说,本研究展示了利用大脑网络相似性来构建“网络中的网络(network of networks)”的潜力,从而为人脑中的对象分类提供新的见解。
脑网络的比较
在一些领域中,理解和表征复杂系统的关键在于从数据中构建网络并进行推断。在网络神经科学中,脑图模型是大脑元素(神经元、神经元集合或脑区)之间相互作用的抽象数学表征。图中的节点代表通过特定分割技术获得的神经元集合或脑区。边代表神经元元素之间的功能或结构联系。
随着网络神经科学的应用越来越广泛,比较大脑网络的技术也逐渐增多。这些比较包括但不限于:(i)对不同被试群体的大脑网络进行统计比较,或者对同一被试在治疗或刺激前后的大脑网络进行比较;(ii)通过量化功能和拓扑相似性来区分神经系统疾病;(iii)对不同时序脑网络的变化进行量化分析;(iv)比较真实脑网络与生成网络模型(见图1);以及(v)跨物种比较神经系统的拓扑结构。
图1.图比较在网络神经科学中的应用。
用于脑网络比较的方法和策略可以分为两大类:第一类是统计比较,可以应用各种图论指标来表征大脑网络的拓扑结构。本文中使用的图相关的定义量和符号如表1所示。
表1
第二类是基于距离的图比较算法,其主要目的是通过研究一些从应用角度来看很重要的特征来量化两个网络之间的距离(相似性分数)。虽然大多数算法是针对特定领域开发的,但它们确实是一种量化脑网络之间相似性的有用工具(图2)。
图2.图比较方法。
统计比较
脑网络之间的统计比较可以分为两种类型。首先是将真实的大脑网络与随机网络进行比较,主要目的是验证大脑网络的某些特征是否与随机网络显著不同。其次,网络统计比较可用于健康对照组和患者等两组被试的脑网络比较。我们可以将用于比较脑网络的指标分为四类:全局水平、节点水平、边水平和图谱分析。
全局水平分析
在这种情况下,图指标是针对整个网络计算的,每个网络可以得到一个值。然后,应用统计检验对两组(如健康对照组与患者组)进行比较。
小世界属性。网络的小世界属性最初由Newman和Watts(1999)提出。此外,还提出了与小世界属性相关的其他度量指标,包括小世界系数、小世界度量、小世界倾向和小世界指数。其特点是具有较低的平均最短路径长度(L)和较高的聚类系数(CC)。简而言之,平均路径长度L被定义为一个节点到另一个节点所需的平均最小边数。节点的聚类系数CC定义为节点邻居之间现有连接的数量与它们之间所有可能连接的比值。CC量化了网络信息传递的局部效率。
模块化。模块化是指将网络划分为若干不重叠的组或模块,也称为社区。网络模块由图中的节点子集定义,模块内的节点紧密连接,并且与模块外的节点之间弱连接。人们已经提出了多种方法来解决复杂网络的社区结构问题。在脑网络应用中,模块化最大化方法是脑网络模块检测中最常用的方法。该方法的主要思想是将网络中的节点划分为K个不重叠的社区,以最大化模块化质量函数Q。当Q的最小值接近0时,表示网络接近随机网络;而当Q的最大值接近1时,表示网络具有较强的社区结构。
效率。网络效率量化了整个网络中的信息交换。它被定义为平均路径长度的倒数。有研究使用全局效率来比较健康老年人和健康年轻人的功能性脑网络发现,老年人的效率降低。此外,有多项研究显示,患有精神分裂症、阿尔茨海默病和帕金森病患者的全局效率显著低于健康对照组。
节点分析
计算每个节点的度量值,然后比较两个图中该节点的度量值。这种方法的主要优势是:(i)可以在图中探索更多的特征,(ii)有更多的数据(节点数量)来比较不同条件之间的差异,(iii)这种比较不仅可以显示两种条件之间是否存在差异,而且还可以表明差异出现在哪些脑区。然而,由于节点的活动不是完全独立的,因而这种方法可能会产生假阳性结果,可采用Bonferroni或错误发现率(FDR)等方法进行多重比较校正。总体而言,这些指标主要反映了网络中的三种行为特征:分离性、整合性和中心性。
分离性。分离性是网络在密集连接的节点组中进行专门处理的能力。这包括以下几个度量:(i)聚类系数,即节点邻居中相互连接的节点对占总邻居节点对的比例;(ii)局部效率,衡量了信息传递效率,计算为节点i的邻居节点的平均效率,不包括节点i本身;以及(iii)模块度,表示一个节点相对于同一社区中其他节点的连接程度。Chan等人(2014)发现,随着年龄的增长,脑网络的分离性降低。有研究表明,阿尔茨海默病和精神分裂症患者的网络分离性有所改善,而癫痫患者的网络分离性减少。
整合性。整合性是网络从远处节点获取信息的能力。这包括诸如(i)参与系数之类的度量,它量化了给定节点在模块内与模块间连接的平衡,以及(ii)特征路径长度,它被定义为网络中所有节点对之间的平均最短路径长度。有许多研究对健康被试和阿尔茨海默病患者的脑网络进行了比较,结果显示患者的特征路径长度增加。
中心性。这包括诸如(i)强度(描述节点与所有其他节点的连接强度)和(ii)介数中心性(定义为在所有最短路径中经过该节点的路径数目占最短路径总数的比例)等度量指标。许多研究显示,脑部疾病,如阿尔茨海默病、昏迷和精神分裂症,与节点中心性的改变相关。Yan等人(2010)使用介数中心性来研究性别对人类皮层解剖网络拓扑结构的影响。一般在临床应用中,介数中心性被用来比较健康被试和患有精神分裂症、抑郁症以及阿尔茨海默病患者的脑网络。
边分析
边分析包括对图中每条边进行统计检验(如Student’s t检验)。如果图中节点的数量为n,则在无向网络情况下,最大边数为(n×(n-1)/2)。统计检验将进行(n×(n-1)/2)次计算。这种方法还需要使用Bonferroni或FDR等方法进行多重比较校正。也可以使用基于网络的统计(NBS)方法来处理家族误差率。该方法(基于置换分析)的主要思想是找到一个网络“模式”(由边连接的一组节点),而不是仅仅关注单个节点之间的连接。NBS已被广泛用于识别与精神疾病(如精神分裂症和抑郁症)等相关的脑网络变化,以及识别帕金森病患者的认知表型。
图谱分析
图谱理论是图论的一个分支,被广泛用于表征图的性质并提取其结构信息。对于具有n个节点的图G(N,E),其邻接矩阵为An×n,度矩阵为Dn×n,拉普拉斯矩阵Λn×n可以使用以下公式计算(图3):
一旦构建了拉普拉斯矩阵,就可以计算图G的特征值(λ1,λ2...λn)。图谱分析在许多领域因其强大的网络特性表征而闻名。它提供了有关网络属性的重要信息,如网络连接水平、抗毁性以及信息在整个网络中的传播。近年来,一些研究利用图谱理论来比较脑网络,包括比较不同物种结构性脑网络(如秀丽隐杆线虫、猕猴和猫)的特征值分布。此外,它还被用于检测阿尔茨海默病患者的脑网络变化。
图3.A)具有六个节点和七条边的图形。B)邻接矩阵(A)、度矩阵(D)和拉普拉斯矩阵(∧)。C)从每个矩阵中提取的一些图度量,其中C表示节点3的聚类系数,L是节点5到节点6之间的最短路径长度,k表示节点3的度,λ2是图G的第二个特征值。
同步能力。同步能力(S)量化了网络在边缘移除方面的稳健性。它被计算为网络拉普拉斯矩阵的第二小特征值与最大特征值之间的比值。
S值较低的网络更容易发生断连。相反,高S值意味着网络连接更为稳固。有研究表明,聚类系数、平均距离、平均度和度分布等图属性不能很好地表征网络的同步性。相反,图谱分析可以检测这种同步能力。
例如,两个图形G1和G1'拥有相同数量的节点(n=6)和边(m=9),如图4所示。这两个图形共享相同的统计网络指标,如密度、介数中心性、平均度和全局效率(见表2),但它们的同步能力(S)存在差异:λ2(G1)=3,λ2(G1')=2,因此S(G1)=3/6,S(G1')=2/5。
图4.图G1和G1'。
表2.图指标的描述。
基于距离的图比较
基于距离的图比较方法的主要思想是比较两个图,并提供一个“相似性”分数。这个相似性值(如果经过标准化)的范围为0(完全不相似)到1(完全相似/同一网络)。基于距离的图比较方法包括两大类:
已知节点对应关系。这包括基于编辑距离的方法,侧重于共同和不同的元素(节点和边),如图编辑距离(GED)和汉明距离。它们还包括更复杂的技术,如DeltaCon和SimiNet。未知节点对应关系。例如,这包括通过比较拉普拉斯矩阵来比较网络结构的核方法,以及使用节点不变的图统计量来比较图形的方法(见图2)。
基于编辑距离的算法
通过使用编辑距离算法来量化两个脑网络之间的相似性/距离,可以发现两个脑网络之间的共同/不同节点(脑区)和边(功能性/结构性)。
汉明距离(Hamming)。汉明距离是比较两个网络最直接的方法,定义为两个网络G'和G''的邻接矩阵之差的和:
其中i和j是两个节点,A'和 A''分别是 G'和 G''的邻接矩阵。
图编辑距离(GED)。GED是两个网络之间的另一个常用距离度量,定义为将一个图形转换为另一个图形所需的编辑操作的最小权重序列(图形的编辑操作是对节点和边应用插入、删除或替换操作)。图G'和G''之间的GED定义为:
其中,c(eu)是从G'到G''的编辑操作的成本,U是编辑操作的总次数。该方法的难点在于定义不同操作的成本函数。
SimiNet算法。SimiNet在计算相似性指数的同时探索节点和边。该算法提供了一个标准化的相似性指数(SI):相似性为0表示没有相似性,为1表示两个网络完全相同(具有相同的属性和拓扑结构)。图5展示了三个图,G2、G2'和G2'',它们具有相同数量的节点(n=6)和边(m=7),这些图位于(8×8)的网格上。图G2'和G2''是通过随机移动G2的三个节点得到的。然后,使用SimiNet、Hamming和GED算法计算三个图之间的相似性分数(见表3)。从本例中可以看出,Hamming和GED无法捕捉节点的空间移动,而SimiNet可以。
图5.三个具有相同数量节点(6)和边(7)的网络。
表3.使用SimiNet、Hamming和GED算法计算三个网络(G2、G2'和G2'')之间的相似性分数。
基于结构距离的算法
通过使用优先考虑网络结构的算法来计算两个脑网络之间的相似性/距离,使我们能够发现和量化结构拓扑差异,例如是否存在对网络信息流有影响的重要边、节点、派系或子图。目前已经提出了几种基于结构距离计算网络相似性的算法。
DeltaCon算法。DeltaCon算法评估相同大小的网络(即具有相同节点数的两个网络)的相似性。该方法旨在计算第一个网络中成对节点之间的亲和度矩阵,并将其与第二个网络中的亲和度矩阵进行比较,其中节点的亲和度是指每个节点对另一个网络中节点的影响力。然后计算这两个矩阵之间的差异,以产生衡量比较网络之间相似性的亲和度分数。
D-度量。Schieber等人(2017)提出了一种量化图差异的新算法。差异分数的取值范围在0到1之间,分数越大表示图之间的相异度越高,分数越小表示图之间的相似性越高。该算法的主要优势在于它能够检测到图中的结构差异,这些差异能够对图中信息的传递产生影响。
核方法。图核方法首先将图映射到高维特征空间,然后搜索映射图之间的共同特征。给定两个图G3和G3',图核的基本思想是构造一个核ξ(G3,G3')=〈ϕ(G3),ϕ(G3')〉,其中G3和G3'之间的相似性分数对应于希尔伯特空间中两个向量ϕ(G3)和ϕ(G3')的标量积。目前,已经提出了几种基于图核的算法来衡量网络的相似性,例如随机游走、最短路径和Weisfeiler-Lehman算法。
随机游走核计算两个图上的匹配对。通过比较两个节点的属性值来判断两个节点是否匹配。然后,将两个随机游走之间的相似性度量定义为沿途遇到的节点对应的内核值的乘积。
最短路径核通过精确匹配最短路径长度来计算一组图的最短路径核。通常使用Floyd-Warshall算法来计算图G3和G3'中所有节点对的最短路径。然后,通过比较图G3和G3'中节点间的所有最短路径长度对来定义最短路径核。
Weisfeiler-Lehman算法。该算法的主要思想是通过对相邻节点的节点标签进行排序来增加节点标签,并将这些增加的标签压缩为新的短标签。重复执行这些步骤,直到图G3和G3'的节点标签集不同或迭代次数达到最大值h。详细示例见图6。
图6.图G3和G3'的Weisfeiler-Lehman子树核构建过程,其中h=1。
其他图比较方法
一些其他方法与图相似性间接相关,并可能有助于解决一些图相似性的挑战。其中一种方法是“图分类”,其主要思想是根据图特征比较将单个图分类为两个或多个类别。许多深度学习算法也被用到不同领域的图分类中,例如人工智能、图像分析和神经科学。目前,基于潜在的图特征/嵌入比较,Heimann等人(2019)提出了一种随机网格映射方法,能够在多个分辨率水平捕捉图的节点嵌入分布。相似性方法与这些分类方法的不同之处在于后者不一定产生相似性分数作为输出,但它们可以直接将网络划分为类,因此在某些神经科学应用中非常有用。在网络神经科学中,已经开发了几种机器学习/深度学习方法来学习嵌入在网络中的潜在特征或提取有意义的信息。例如,Kawahara等人(2017)提出了一个名为BrainNetCNN的新框架,允许从脑网络中进行预测,如预测大脑网络的发展。
网络中的网络
分析脑网络之间的相似性在认知和临床神经科学等领域都非常有用。在这里,本文展示了将其应用于视觉识别任务中估计功能网络的例子。该研究使用了来自20名被试的密集脑电图(256个电极)数据,要求被试对两类图片(39张有意义的图片和39张混乱的图片)进行命名。然后,基于脑功能网络之间的相似性分数构建一张地图(图7)。这些数据在Mheich等人(2018)的研究中有详细描述,该研究不仅获得了美国国家伦理委员会的批准,批准编号(2014-A01461-46),并且得到了雷恩大学医院的支持。
图7.方法示意图。
使用EEG源连接方法,在皮层水平上构建每个物体(图片)的功能性脑网络。利用SimiNet算法量化所有与物体相关的功能网络之间的相似性得分,生成一个78×78的相似性矩阵。将相似性矩阵转化为图,其中节点代表脑网络,边表示脑网络之间的最高相似性得分,如图8所示。从图中可以看出,同一类别物体之间的连接(N=72)明显高于不同类别物体之间的连接(N=7)。构建这种网络的网络可以看作是基于功能网络相似性的方法评估人脑中视觉物体分类的首次尝试。
图8.大脑网络中的网络。紫色节点表示有意义的图片,蓝色节点表示混乱的图片。紫色边表示两个有意义图片的功能网络之间的高相似性值。蓝色边表示两个混乱图片的功能网络之间的高相似性值,而深蓝色边表示有意义和混乱图片的两个脑网络之间的高相似性值。
结论
从方法学的角度来看,需要开发和优化将多个图特征结合到一个相似性分数中的相似性算法。在将这些算法应用于真实的脑网络之前,应首先使用模拟数据进行分析和验证。另一种方法是在脑动态算法中使用相似性方法,以揭示脑网络随时间变化的方式。在大多数动态分析算法中,总是需要进行相似性/相关性步骤来比较相邻的网络。这通常使用经典相关系数来完成。将基于网络的相似性指数添加到脑动态算法中可以显著提高它们的性能。从应用的角度来看,未来的临床应用可以构建“脑疾病网络”,其中脑疾病可以用节点表示,边表示它们之间的相似性分数。这种方法有助于表征和可视化大脑疾病之间的共同特征。
参考文献:Ahmad Mheich, Fabrice Wendling, Mahmoud Hassan; Brain network similarity: methods and applications. Network Neuroscience 2020; 4 (3): 507–527. doi: https://doi.org/10.1162/netn_a_00133
小伙伴们关注茗创科技,将第一时间收到精彩内容推送哦~