摘要
社交网络中的关键节点对整个网络具有重要的影响力,而社交网络中的一些节点可能位于网络的中心,而另一些节点则可能位于网络的边缘,传统的影响力最大化算法忽略了这种不平衡。通过忽略位于网络边缘但连接到中心的节点来导致信息的传播。为了避免陷入局部最优解而无法达到全局最优,从而找到影响力最大的种子节点,提出一种基于图注意力机制的社交网络影响力最大化算法(GATSH)。利用GATSH算法在4个公共网络数据集上进行实验,结果表明该方法能够有效评估网络节点的重要性。
关键词社交网络;图注意力网络;结构孔;关键节点;影响力最大化
I. INTRODUCTION
随着科技的加速进步,社交网络平台的应用日益普及[1],涵盖了国内外众多主流产品,这些都在推动社交行为从传统物理空间大规模迁移到虚拟平台。用户在社交网络平台上发布的信息量极其庞大,借助高速网络技术,信息可以高效、即时地传递和共享[2]。社交网络影响力研究在数字营销[3]和社交媒体营销领域的重要性日益显现,企业通过这些平台直接与消费者接触,通过用户的分享和传播行为来促进品牌传播和推广。
受Kempe等人[4]研究的启发,影响力最大化问题近年来引起了学术界的广泛关注和研究兴趣。然而,大多数研究仅从实际应用的角度关注网络内单一信息传播的现象,这在一定程度上限制了其在复杂的现实网络环境中的适应性。 Velikovi等人[5]提出了一种图注意力神经网络,其核心是放弃传统的依赖全局拉普拉斯矩阵的节点更新方法,将注意力机制嵌入到每个节点更新过程的状态中。目的是准确评估邻近节点的重要性并相应地分配权重,以重点关注那些具有重大影响的节点,从而提高模型的整体性能。 Yang J等人[6]提出了一种融合覆盖度和结构孔洞的影响力最大化算法(NCSH),该算法融合节点的覆盖度和结构孔洞属性来综合评估节点的影响力,有效解决了传统启发式算法性能不稳定的问题基于拓扑结构,但这种贪心策略可能会导致算法陷入局部最优解而无法达到全局最优。
传统的关键节点识别方法在解析图中嵌入的信息时存在局限性[7],例如,在社交网络中,某些用户节点可能占据网络的核心,而其他用户节点则分布在网络的边缘。传统的影响力最大化算法往往会忽略此类节点分布的位置,因此无法对位于网络边缘但能有效连接到中心区域的节点,即处于结构孔位置的节点给予足够的关注。信息传播分析。结构孔位置处的节点 [8] 尽管它们可能不是网络中最明显的,但由于其独特的位置而具有潜在的影响力。鉴于此,本文引入结构洞的概念[9]作为衡量节点影响力的指标,同时考虑网络的整体架构。在充分考虑节点属性特征的基础上,构建了基于图注意力网络和结构洞(GATSH)的影响力最大化模型。为了验证GATSH算法的有效性,本文将GATSH算法与其他几种算法进行了比较,并利用SIR模型和Kendall相关系数τ来说明该算法的优越性[10]。 GATSH算法解决网络节点之间的不平衡问题,动态分配权重并优先考虑重要节点,使信息传播更加均衡、高效;提高信息传播效率,在广告推广、舆情监测等领域具有重要应用价值;优化社交网络结构,有助于提高社交网络的稳定性和传播效率。
II. RELATED TECHNOLOGIES
社交网络影响最大化(IM)问题首先由 Kempe 等人定义为离散优化问题 [4]:给定社交网络 (,) GVE 和预算 k,目的是找到社交网络中影响力最大的前k个用户作为种子节点,以最大化最终影响的节点数量,从而使网络影响力传播最大化。社交网络被描述为图 ,其中 G 中的节点集合,表示 G 中的节点集合G 中的边,每条边 (,) uvE ⊆ 表示节点 u 到节点 v 的影响关系[11]。 IM问题是找到V中的k个节点作为种子集S,使得影响()S ρ 最大化。如(1)所示。
A. Graph Attention Network
图注意力层 (GAL) [12] 接收一组节点特征作为输入;其中N代表节点总数; F代表节点单个节点包含的特征数量。经过 GAL 运算后,生成一组新的节点特征,并以 作为输出; F'表示其维度对应于每个节点的输出特征的数量。具体来说,对于任意节点 i 和节点 j,首先应用权重矩阵 FF WR≥ ⊆ 进行映射[13],然后使用注意力机制计算它们之间的注意力系数 :FF aRRR ≥↑,如图所示在(2)中:
其中,节点i对其邻居节点j的重要性用ij e 表示,ij e 值的增大意味着节点j对节点i的影响力增大。这种重要性通过softmax函数[14]进行归一化,如(3)中所定义,这确保了节点之间的相对重要性转化为合理的概率分布。
B. Structural Hole
结构洞理论最早由美国社会学家伯特提出[8]。结构空洞是指社会关系网络中两个不重复的行为者之间的间隔,或者说两个个体之间存在的空白空间。当两个行为者之间既没有直接联系也没有间接联系,并且他们拥有互补的资源或信息时,这种间隔或间隙区域就像网络中的一个洞穴,因此被称为结构洞。从网络结构上分析,结构洞中的节点通常是传统关键节点识别方法所忽略的重要节点,但它们能够控制或掌握信息流及其在洞中的流动,从而在信息传递中发挥关键作用Burt[9]提出利用约束系数来识别结构孔节点,节点 i 的结构孔约束系数越小,该节点越有可能成为结构孔节点。 ,该节点越容易成为结构孔节点,对应的节点影响力越大。约束系数定义如下:
其中,节点 q V 为节点 i V 和节点 j V 的公共邻居节点; ij p 表示节点 j V 在节点 i V 的所有邻居节点中所占的权重比例[9]。本文根据计算对节点的约束系数从小到大进行排序,根据排序结果,可以选择约束系数较小的节点作为影响力较大的种子节点集合。
III. INFLUENCE MAXIMISATION ALGORITHMS BASED ON STRUCTURED HOLES AND GRAPH ATTENTION NETWORKS
传统的影响力最大化方法通常采用贪心算法等启发式方法来选择种子节点,容易陷入局部最优解而不是达到全局最优,并且只考虑网络的拓扑结构,忽略了属性特征的影响节点对影响传播的影响。图注意力网络可以通过学习到的节点表示来减少对网络拓扑的依赖,从而降低计算复杂度并提高算法的效率。同时,结构洞可以揭示网络中的隐藏信息和关键路径,更准确地识别关键节点,提高影响力最大化的效果,避免算法陷入局部最优解,提高算法的准确性和稳定性。
A. Algorithm description
GATSH算法首先通过嵌入技术将图中的每个节点转换为特征向量,其中包含节点的属性、标签等信息。其次,利用图注意力机制学习节点的属性特征并动态计算节点之间的权重。每个节点的注意力系数是通过聚合相邻节点的信息来计算的,这些注意力系数用于更新节点的特征表示。然后,利用学习到的特征表示来构造网络的权重矩阵。根据这个权重矩阵,计算每个节点的约束系数。当节点的约束系数较低时,表明该节点在网络中处于相对独立的状态,更可能处于结构空洞位置。因此,它的影响力更大。 GATSH算法示意图如图1所示:
图1.GATSH算法示意图。
通过注意力机制,我们根据邻居节点的特征属性来学习和区分其重要性,并通过系统地为节点在信息传播过程中的影响力大小分配差异化权重来映射其各自的影响力贡献。利用特殊节点所在的结构洞位置来解决社交网络中影响力最大化的问题。在 GAT 模型中,注意力机制被巧妙地实现为两阶段过程 [15]。首先,参数化权重矩阵A。该阶段的目的是让模型具有学习和调整节点之间关系的能力。接下来,LeakyReLU 函数被用作非线性激活手段,旨在捕获潜在的复杂交互效应 [16]。随后,借助softmax函数进行归一化,以确保得到的注意力系数ij a构成有效的概率分布[17]。最后,将社交网络中的节点在学习图注意力机制后更新的属性特征作为节点的特征矩阵,通过遍历更新后的邻域矩阵并计算节点的连接强度来计算节点的约束系数。公共邻居节点,并利用(4)和(5)将节点的属性信息与节点在社交网络中的重要性和影响力相关联。节点i的约束系数公式:
B. Ranking of Social Network Influence
为了解决IM问题,即找到影响力最大的种子节点集合,选择影响力较高的节点作为种子节点可以提高影响力传播效率。通过对节点进行排序,可以选择排名靠前的节点进行分析计算,直接分析大规模社交网络中所有节点的影响力是非常耗时的。考虑到社交网络节点之间的复杂关系,本文通过训练GAT模型并利用节点的表示向量对影响力进行评估和排序,根据排序结果从大到小,可以将节点向量得分较高的节点被选为影响力较大的种子节点集合。为了识别社交网络中具有桥梁作用的关键节点,结构洞考虑了节点之间的联系,因此可以更全面地考虑节点之间的关系,并可以发现那些具有潜在影响力的节点,从而更准确地评估节点的影响力。这反过来又促进了信息传播并加强了社区之间的联系,从而最大限度地发挥了社交网络的影响。
本文根据计算对节点的约束系数从小到大进行排序,根据排序结果,约束系数越小,越小的节点可以被选为影响力较大的种子节点集合。 GATSH算法的流程图如图2所示。
图 2. GATSH 算法的流程图。
IV. ANALYSIS OF EXPERIMENTAL DATA AND RESULTS
A. Experimental Settings
本文所有实验均在Intel(R) Core(TM) i7-10700 CPU、Radeon Pro WX 5100、32GB RAM、Window操作系统平台上进行,使用PyCharm开发工具和Python编程语言。
选择来自不同领域的四个真实网络进行实验,如表1所示:空手道俱乐部社交网络空手道网络[18],其中每条边代表成员之间维持的社会关系; Cora[19]和Citation Graph[20]是文献引用网络数据集,网络中的每个节点代表一篇论文文档,每条边代表一个引用关系; WikiCS [21] 是一个基于维基百科的数据集,用于评估图神经网络的性能。数据集的统计特征如表1所示,其中n为节点总数,m为连接边总数,<k>为平均度,C为聚类系数,<d>为平均值最短路径长度,th α 是SIR模型[22]的传播速率阈值,即实验中使用的传播概率。
表 I. 实验数据集
B. Simulation Experiment
为了验证本文提出的GATSH算法的有效性,通过Karate网络进行了仿真实验,其网络结构如图3所示。
图 3.空手道的网络结构。
六种方法,DC[23]、BC[24]、EC[25] ]、GAT[5]、N-Burt[9]、GATSH进行比较,得到网络前10个节点的影响力最大化排名,如表2所示。
表二。空手道网络节点影响力排名评估结果
对Karate网络拓扑和节点影响力排名评估结果的分析表明,在GAT算法中,节点29和节点30虽然邻居数量较少,但节点影响力排在前面,这是由于它们是都连接到节点34,仅考虑邻居节点的重要性无法进一步区分该节点的重要性。本文提出的GATSH方法从节点局部和全局信息的角度考虑节点自身的结构空洞特征和网络位置信息以及邻居节点的影响力,进一步改善了社交网络中种子节点的影响力传播。 GATSH算法通过仿真实验得到的前10个最具影响力的节点与其他算法得到的结果相似,这一实验现象进一步说明了该算法的有效性。
C. Experimental Analysis
本节分析不同算法在四个真实网络数据集上的实验结果。选取DC[23]、BC[24]、EC[25]、GAT[5]、N-Burt[9]、GATSH等6种方法进行比较,比较各算法与SIR模型之间的Kendall相关系数对不同传播速率的排序结果进行比较,如图4所示。
使用SIR模型来量化节点的传播效率,并相应地生成排序列表σ,并进一步与之间的Kendall相关系数进行比较算法得到的排名σ和实际传播能力排名。相关性越接近1,节点重要性的评估越准确[26]。如图4所示,当传播速率β取值接近传播阈值αth时,GATSH方法的τ值均高于其他算法。此外,当传播速率β显着低于传播阈值αth时,DC和GAT算法在Karate和Cora数据集中相对于GATSH算法在相关性上表现出一定程度的优越性。因此,GATSH算法能够更有效地找到刀影响力最大的种子节点。通过图注意力网络寻找关键节点,让网络更加关注节点对于整体图结构或特定任务更重要,而结构洞的存在有利于网络不同部分之间的信息交换,有助于信息传播。找到这些关键节点可以帮助识别网络中的关键路径,减少信息传递的冗余,提高网络的效率。而本文提出的GATSH算法可以优化网络结构,提高网络的稳定性和信息传输的效率,并且可以更准确地识别在网络中起关键作用的种子节点。
图 4. 不同传播速率下 SIR 和各个算法之间的 Kendall 相关系数。
V. CONCLUSIONS
本文提出的GATSH方法考虑了节点的局部特征,利用结构洞特征和图注意力网络,从影响力传播最有效的社交网络中准确过滤出由k个节点组成的种子集,使得种子集可以最大化对其他节点的影响。实验结果表明,GATSH算法在影响力传播方面具有优越的性能。具体来说,算法选择的节点集合在传播影响力方面表现出很强的竞争力,这一发现进一步证实了GATSH算法的有效性和实用性。尽管本研究提出的GATSH算法取得了一定的成功,但它仍然存在计算复杂度高和数据依赖性高的问题。对于大规模图数据,图注意力网络和结构化空洞算法的计算复杂度可能会显着增加,导致处理效率低下甚至无法处理。因此,可以探索更有效的计算策略,例如启发式算法。此外,图嵌入技术可用于将图数据缩小到低尺度维度空间,提高计算效率。另一方面,GATSH 算法依赖于输入图数据的质量和特征。如果数据中节点特征不足、图结构复杂或存在噪声,则可能导致算法性能下降。为了提高算法对数据质量的鲁棒性,可以引入节点特征嵌入、图结构简化等数据预处理和增强技术。此外,可以利用无监督学习或自监督学习方法从原始数据中提取更多有用的信息。