1、SCN_GNN: A GNN-based fraud detection algorithm combining strong node and graph topology information
全文总结:本文介绍了一种基于图神经网络的欺诈检测算法——SCN_GNN。在欺诈检测中,由于欺诈者经常使用多种关系类型来掩盖其活动,因此在具有分散图形密度和多重关系的数据集中检测欺诈仍然是一项挑战。此外,节点之间的连接性受限导致信息不足,进一步加剧了原始特征的影响,从而增加了欺诈检测过程中的困难。为了解决这些挑战,作者提出了SCN_GNN算法,该算法结合了强节点信息和图拓扑信息,并提出了两种节点采样策略:结构相似度感知模块(SSAM)用于上采样以添加有用节点到稀疏图中,而强节点模块(SNM)则基于强节点信息和原始特征进行下采样。此外,作者还重新配置了递归和可扩展强化学习框架(RSRL)模块,以提高欺诈检测性能。实验结果表明,在两个真实世界数据集上的表现优于现有模型。
1. 文章研究背景和要解决的问题挑战
本文提出的 SCN-GNN 模型解决了欺诈检测中的两个主要问题:
- 数据集不平衡问题:通过引入未连接但重要的节点,模型可以更好地处理不平衡的数据集。
- 虚假邻居问题:通过选择最接近中心节点的邻居,模型可以消除虚假邻居的影响,从而提高模型的准确性。
2. 具体实现
本文提出的 SCN-GNN 模型是一种基于图神经网络的欺诈检测算法,旨在通过识别欺诈行为来提高模型性能。该模型包括三个主要组件:结构相似性感知模块、强节点模块和内关系聚合模块。这些组件协同工作以提高模型的准确性和鲁棒性。
结构相似性感知模块使用 Jaccard 相似度计算来选择与中心节点相关的邻居,并将未连接但重要的节点添加到邻接矩阵中。这有助于克服数据集不平衡问题并增加距离分类之间的距离。
强节点模块使用多个关系的信息来测量中心节点与其邻居之间的相似性,并根据这种相似性选择最接近中心节点的邻居。此外,该模块还能够消除虚假邻居的影响,从而增强整体性能。
内关系聚合模块通过学习参数自适应地确定最终节点嵌入,并通过交叉熵损失函数最小化预测标签和实际标签之间的差异。
本文提出了一种基于图神经网络(GNN)的新型欺诈检测算法SCN_GNN(Strongly Connected Nodes-Graph Neural Network),它结合了强节点信息和图拓扑信息来提高欺诈检测的性能。SCN_GNN算法包含两个主要的节点采样策略:结构相似性感知模块(SSAM)和强节点模块(SNM)。此外,该算法还重新配置了递归和可扩展的强化学习框架(RSRL)模块,以优化算法效果。以下是文章中提到的一些关键公式和方法的详细说明:
1. 结构相似性感知模块(SSAM)
公式1:Jaccard相似度计算
J
(
A
,
B
i
j
)
=
∣
A
∩
B
i
j
∣
∣
A
∪
B
i
j
∣
J(A, B_{ij}) = \frac{|A \cap B_{ij}|}{|A \cup B_{ij}|}
J(A,Bij)=∣A∪Bij∣∣A∩Bij∣
- A A A:中心节点 v i v_i vi 的一跳邻居节点集合。
- B i j B_{ij} Bij:中心节点 v i v_i vi 的二跳邻居 v j v_j vj 的一跳邻居节点集合。
- Jaccard相似度用于衡量集合 A A A 和 B i j B_{ij} Bij 之间的相似性,值越接近1表示越相似。
2. 强节点模块(SNM)
公式2:L1距离计算
D
(
v
,
v
′
)
=
∣
∣
tanh
(
F
C
N
(
l
−
1
)
(
h
v
)
)
−
tanh
(
F
C
N
(
l
−
1
)
(
h
v
′
)
)
∣
∣
1
D(v, v') = ||\tanh(FCN^{(l-1)}(h_v)) - \tanh(FCN^{(l-1)}(h_{v'}))||_1
D(v,v′)=∣∣tanh(FCN(l−1)(hv))−tanh(FCN(l−1)(hv′))∣∣1
- F C N FCN FCN:全连接网络。
- h v h_v hv:节点 v v v 在第 l l l 层的嵌入。
- D ( v , v ′ ) D(v, v') D(v,v′):计算中心节点 v v v 与其邻居节点 v ′ v' v′ 在第 l l l 层的L1距离。
公式3:相似度得分计算
S
(
v
,
v
′
)
=
1
−
D
(
v
,
v
′
)
S(v, v') = 1 - D(v, v')
S(v,v′)=1−D(v,v′)
- S ( v , v ′ ) S(v, v') S(v,v′):基于L1距离的相似度得分,值越接近1表示节点 v v v 和 v ′ v' v′ 越相似。
公式4:平均L1距离计算
d
c
=
1
K
∑
k
=
1
K
D
r
,
k
(
l
)
(
v
,
v
′
)
d_c = \frac{1}{K} \sum_{k=1}^{K} D^{(l)}_{r,k}(v, v')
dc=K1k=1∑KDr,k(l)(v,v′)
- d c d_c dc:中心节点 v v v 在第 l l l 层下,关系 r r r 的邻居节点 v ′ v' v′ 的平均L1距离。
公式5:下采样节点数计算
N
c
=
p
r
∗
N
l
r
d
c
∑
c
=
1
C
1
d
c
N_c = p_r^* \frac{N_l^r}{d_c} \sum_{c=1}^{C} \frac{1}{d_c}
Nc=pr∗dcNlrc=1∑Cdc1
- N c N_c Nc:在关系 r r r 下,中心节点 v v v 的第 l l l 层中,类型 c c c 的邻居节点的下采样数量。
公式6:强节点嵌入聚合
h
v
(
l
)
=
R
e
L
U
(
A
G
G
r
(
l
)
(
w
c
⋅
{
h
v
′
(
l
−
1
)
:
v
′
∈
N
c
r
}
)
)
h_v^{(l)} = ReLU(AGG^{(l)}_r(w_c \cdot \{h_{v'}^{(l-1)}: v' \in N_c^r\}))
hv(l)=ReLU(AGGr(l)(wc⋅{hv′(l−1):v′∈Ncr}))
- A G G AGG AGG:聚合函数。
- w c w_c wc:可学习的参数,用于聚合第 l l l 层下,关系 r r r 中不同类型节点的信息。
公式7:强节点跨关系邻居聚合
h
v
=
R
e
L
U
(
A
G
G
(
p
l
⋅
h
v
(
l
)
)
)
h_v = ReLU(AGG(p_l \cdot h_v^{(l)}))
hv=ReLU(AGG(pl⋅hv(l)))
- p l p_l pl:通过强化学习模块获得的过滤阈值。
3. 强化学习模块(RSRL)
公式8:交叉熵损失函数
L
G
N
N
=
−
∑
v
∈
V
y
v
⋅
log
(
σ
(
M
L
P
(
l
)
(
z
v
)
)
)
L_{GNN} = -\sum_{v \in V} y_v \cdot \log(\sigma(MLP^{(l)}(z_v)))
LGNN=−v∈V∑yv⋅log(σ(MLP(l)(zv)))
- y v y_v yv:节点 v v v 的标签。
- σ \sigma σ:sigmoid函数。
- M L P MLP MLP:多层感知机。
- z v z_v zv:节点 v v v 的特征。
公式9:连续强化学习的动作空间定义
p
r
(
d
)
←
{
p
r
(
d
−
1
)
−
W
r
(
d
)
/
2
,
p
r
(
d
−
1
)
+
W
r
(
d
)
/
2
}
p^{(d)}_r \leftarrow \{ p^{(d-1)}_r - W^{(d)}_r/2, p^{(d-1)}_r + W^{(d)}_r/2 \}
pr(d)←{pr(d−1)−Wr(d)/2,pr(d−1)+Wr(d)/2}
- p r ( d ) p^{(d)}_r pr(d):在第 d d d 层深度下,关系 r r r 的过滤阈值。
- W r ( d ) W^{(d)}_r Wr(d):在第 d d d 层深度下,关系 r r r 的动作空间宽度。
公式10-14:状态函数、奖励函数和迭代函数
- 状态函数考虑了节点间的类内距离和类间距离,以优化决策边界。
- 奖励函数基于过滤阈值调整后的节点距离进行设计。
- 迭代函数和终止条件用于更新和结束强化学习过程。
这些公式和方法共同构成了SCN_GNN算法的核心,使其能够有效地处理具有不同关系和稀疏连接的图数据集,提高欺诈检测的准确性和鲁棒性。
3. 实验设计
本文主要介绍了使用SCN-GNN算法对欺诈检测任务的实验研究,并通过多个对比实验来验证该算法的有效性和优越性。具体来说,实验包括以下几个方面:
对比不同算法在欺诈检测任务上的表现,以验证SCN-GNN算法的优越性;
分析SCN-GNN算法中各个模块的作用和影响,以进一步优化算法性能;
研究训练过程中的变化趋势,以了解模型的改进情况;
探索算法参数的影响,以找到最优参数组合;
比较不同的距离函数在重建RSRL模块中的效果,以确定最佳的距离函数选择。
针对每个实验,文章给出了详细的实验设计、结果分析和结论总结。例如,在第一个实验中,作者选择了六种先进的欺诈检测算法作为对比对象,通过对两个真实数据集的测试,证明了SCN-GNN算法在各项评估指标上均优于其他算法,特别是在处理多关系图时表现出色。在后续实验中,作者也对各个模块进行了深入的研究和比较,得出了许多有益的结论和建议。
总的来说,本文提供了一个系统而全面的欺诈检测算法实验研究框架,为相关领域的研究提供了有价值的参考和借鉴。
4. 总结
值得精读
本文提出了一种名为SCN_GNN的新型欺诈检测算法,该算法结合了强大的节点模块和结构相似度感知的上采样模块。通过利用节点信息和图拓扑信息,该算法能够识别出对学习任务更有价值的邻居节点。此外,作者还重新配置了RSRL模块,使其具有更快的收敛速度,并且通过对决策边界进行微调,取得了令人满意的检测结果。与当前最先进的DA_GNN算法相比,SCN_GNN在大多数指标上都表现出优越性能。此外,该算法有效地解决了数据不平衡问题,通过添加有价值的边和选择更接近中心节点的邻居节点来增强图的稀疏性。这种方法显著提高了欺诈检测性能,并具有实际应用价值。
本文提出了两个创新点:一是引入了结构相似度感知的上采样模块,以有效处理不平衡数据集并实现更好的训练效果;二是提出了一个强节点模块,它融合了额外的信息并通过下采样策略来减轻噪声的影响。同时,文章还修改了强化学习中的状态函数,以最大化欺诈节点和正常节点之间的区别,最小化类内差距,并净化决策边界,从而获得更好的算法性能。
5. 局限性
在未来的研究中,作者将重点关注提高欺诈检测算法的性能和有效性。为此,他们计划深入探索与邻居节点相关的伪标签信息,并根据这些信息选择适当的伪标签策略,并将其整合到现有的结构相似度感知模块中,从而产生一种新的上采样方法。这种努力有望仔细挖掘更多的连接关系,从而增强算法辨别欺诈行为的能力。此外,该算法的应用范围也扩展到了其他任务,如个性化推荐系统等。因此,该算法的集成研究具有很大的潜力,可以协同增强它们各自的益处和成果。
2、Federated Graph Anomaly Detection via Contrastive Self-Supervised Learning
全文总结:这篇论文探讨了在分布式系统中进行属性图异常检测的问题,并提出了一个基于对比自监督学习的联邦图异常检测框架(FedCAD)。传统的异常检测方法主要适用于集中式环境,但在某些敏感情况下可能会导致隐私泄露风险。因此,联邦图学习成为了解决这个问题的一种有前途的方法。然而,在每个客户端通常只拥有有限数量的图形数据的情况下,直接将联邦图学习应用于分布式环境中的异常检测任务可能会导致性能不佳的结果。为了解决这个问题,FedCAD使用伪标签发现初步确定异常节点,并采用本地异常邻居嵌入聚合策略,从而增强了对比学习中正负样本对之间的区别,提高了异常检测的效果和精度。实验结果表明,FedCAD在四个真实图形数据集上的效率得到了证明。
1. 文章研究背景和要解决的问题挑战
FedCAD解决了传统联邦学习方法在分布式系统中进行节点异常检测时面临的一些问题,主要包括:
- 数据隐私保护:由于FedCAD仅在联邦学习过程中上传部分信息(如伪标签及其对应的邻居嵌入矩阵),因此能够有效保护用户数据隐私。
- 模型效果提升:通过引入伪标签发现和局部邻居嵌入聚合策略,FedCAD能够更好地利用联邦学习的优势,从而提高模型在分布式系统中的性能表现。
2. 具体实现
本文提出了一个联邦学习框架——FedCAD,用于分布式系统中的节点异常检测。该框架采用了自监督学习中的对比学习方法,并在联邦学习的基础上加入了伪标签发现和局部邻居嵌入聚合等策略来提高模型效果。具体来说,FedCAD包括以下步骤:
- 在每个客户端上使用无监督的异常检测算法训练一个局部异常检测模块。
- 客户端将本地数据上传到服务器,服务器通过经典联邦学习算法FedAvg计算全局模型参数并将其发送回客户端。
- 客户端使用全局模型参数更新其本地异常检测模块,并再次上传更新后的模型参数至服务器。
- 重复步骤2和3直到全局模型收敛或达到最大通信次数。
- 在FedAD的基础上,FedCAD引入了伪标签发现和局部邻居嵌入聚合策略以进一步提高模型效果。
3. 实验设计
本文主要介绍了针对网络异常检测的联邦学习框架FedCAD,并进行了多个对比实验来验证其性能和效果。
首先,作者采用了四个常用的网络数据集(Cora、Wiki、BlogCatalog和Flickr)来进行实验,并使用人工注入的方法生成了节点属性异常的数据集。然后,他们比较了FedCAD与DOMINANT、AnomalyDAE、CoLA和FedAD等四种常见的异常检测方法,并使用ROC-AUC作为评估指标。结果显示,FedCAD在所有数据集上都表现出了显著优于其他方法的效果。
接下来,作者还对三个关键参数进行了研究,包括客户端数据大小、客户端数量和置信度阈值。他们发现,即使每个客户端的数据量很小,FedCAD仍然能够取得很好的结果,这主要是因为其本地异常邻居嵌入聚合模块可以扩大异常目标节点与其邻居之间的差异。此外,选择适当的置信度阈值也可以持续提高最终的AUC值。最后,作者还通过增加客户端数量来评估FedCAD的可扩展性,并发现FedCAD在不同客户端之间具有相对较小的性能波动,表明其具有较好的可扩展性。
综上所述,本文通过多个对比实验验证了FedCAD在网络异常检测中的优越性能和有效性。
4. 总结
值得精读
本文提出了一种名为FedCAD的联邦图异常检测框架,该框架将联邦学习和对比学习相结合,能够在分布式环境中训练高质量的图异常检测模型,并保护数据隐私。与传统的集中式异常检测方法相比,FedCAD能够有效解决小客户端子图的问题,提高本地异常检测性能。实验结果表明,FedCAD在多个数据集上表现出色,优于一系列基准方法。
FedCAD的主要创新点在于以下两个方面:
- 联邦参数聚合和异常信息更新策略:通过联邦参数聚合和对比学习采样邻居子图嵌入等技术,实现了客户端之间的数据共享和协同学习,从而提高了异常检测的效果。
- 客户端侧异常邻居聚合机制:利用对比学习采样的邻居子图嵌入向量,实现了客户端之间异常节点邻居嵌入向量的聚合,扩大了异常节点与其邻居节点之间的差异,增强了后续对比学习异常检测的有效性。
5. 局限性
尽管FedCAD已经取得了显著的成果,但仍然存在一些改进的空间。首先,需要进一步降低通信成本,因为频繁的参数传输会增加通信成本。其次,需要将FedCAD扩展到异构图中,以适应不同类型节点和链接的情况。未来的研究可以专注于适当减少通信成本并将其应用于异构图。
3、RoSGAS: Adaptive Social Bot Detection with Reinforced Self-Supervised GNN Architecture Search
全文总结:本文介绍了一种名为RoSGAS的新方法,用于社交机器人检测。传统的神经网络架构设计需要大量的领域专业知识和先验知识,而RoSGAS则采用强化学习机制和自监督学习技术,在多跳邻居和层数选择上进行优化,以适应不同的分类任务。该方法使用异质信息网络表示用户连接性,并利用账户元数据、关系、行为特征和内容特征等信息。实验结果表明,RoSGAS在准确率、训练效率和稳定性等方面优于现有方法,并且具有更好的泛化能力。
1. 文章研究背景和要解决的问题挑战
RoSGAS解决了社交网络bot检测中的三个主要挑战:如何确定适当的子图大小、如何加速收敛以及如何有效地优化强化学习代理。通过自动化的架构搜索机制和自我监督学习方法,RoSGAS能够在有限的时间内找到最优解,并且不需要大量的标注数据。因此,RoSGAS为社交网络bot检测提供了一种高效、准确和可扩展的解决方案。
2. 具体实现
本文提出的RoSGAS是一种基于强化学习的社交网络bot检测框架。该框架通过自动化的架构搜索机制来确定每个目标用户的最佳子图宽度和模型层数,并使用GNN模型将节点嵌入到低维空间中。在搜索过程中,RoSGAS使用了两个RL策略:π1用于选择适当的子图宽度,π2用于选择合适的模型层数。此外,RoSGAS还采用了自我监督学习方法来优化模型性能。
相比于传统的静态图神经网络模型,RoSGAS能够动态地适应不同的目标用户,并根据其邻居关系自适应地调整子图大小和模型深度。此外,RoSGAS还引入了自我监督学习方法,以提高模型性能并减少对标注数据的依赖。
本文提出了一个名为RoSGAS(Reinforced and Self-supervised Graph Neural Network Architecture Search)的框架,用于自适应地检测社交网络上的机器人账户(social bots)。该框架结合了图神经网络(GNN)架构搜索、强化学习(RL)和自监督学习,以适应性地识别最适合的多跳邻域和GNN架构中的层数。以下是文中提到的关键公式和方法的详细说明:
-
问题定义(Semi-supervised Subgraph Classification):
- 给定一组目标用户,对于第 i i i 个目标用户,其相关的子图 G i = { V i , X i , { E i } j = 1 n i , y i } G_i = \{V_i, X_i, \{E_i\}_{j=1}^{n_i}, y_i\} Gi={Vi,Xi,{Ei}j=1ni,yi} 包括节点集合 V i V_i Vi,节点特征集合 X i X_i Xi,边集合 E i E_i Ei,以及目标用户 y i y_i yi 的二元标签(0表示良性账户,1表示社交机器人)。
-
子图嵌入(Subgraph Embedding):
- 子图嵌入是通过编码器(例如,平均编码操作、求和编码操作等)将子图 G i G_i Gi 编码到嵌入空间中,表示为 h ( G i ) = { h v ∣ v ∈ V i ( G i ) } h(G_i) = \{h_v | v \in V_i (G_i)\} h(Gi)={hv∣v∈Vi(Gi)}。
-
强化学习增强的架构搜索机制(Reinforced Searching Mechanism):
- 通过马尔可夫决策过程(MDP)来优化子图宽度 k k k 和模型层数 m m m 的选择。状态空间是子图的嵌入,动作空间包括选择子图宽度 k k k 和模型层数 m m m。
- 奖励函数 R ( s t , a t ) R(s_t, a_t) R(st,at) 定义为当前步骤的准确度与之前步骤平均准确度的差值,用于指导RL代理优化参数以提高模型准确度。
-
最近邻机制(Nearest Neighbor Mechanism):
- 为了加速RL代理的训练过程,提出了最近邻机制。该机制通过查找历史上相似的状态-动作对,并利用这些对的奖励值来估计当前状态-动作对的奖励。
-
自监督学习(Self-supervised Learning):
- 通过对比自监督学习方法来最大化不同子图之间的差异,同时最小化相同用户的子图之间的差异。自监督学习的损失函数
L
s
e
l
f
L_{self}
Lself 定义为:
L s e l f ( A , X , y ) = ϕ ( y s e l f p r e d ( G ) , y s e l f t r u e ) L_{self}(A, X, y) = \phi(y_{self}^{pred}(G), y_{self}^{true}) Lself(A,X,y)=ϕ(yselfpred(G),yselftrue) - 其中 y s e l f p r e d y_{self}^{pred} yselfpred 是通过特定自监督任务获得的子图 G G G 的表示, y s e l f t r u e y_{self}^{true} yselftrue 是子图 G G G 的真实标签。
- 通过对比自监督学习方法来最大化不同子图之间的差异,同时最小化相同用户的子图之间的差异。自监督学习的损失函数
L
s
e
l
f
L_{self}
Lself 定义为:
-
参数共享和嵌入缓冲机制(Parameter Sharing and Embedding Buffer Mechanism):
- 为了避免为每个目标用户训练大量模型参数,提出了参数共享机制,即在不同用户之间共享基础层的参数。
- 嵌入缓冲机制用于存储相关子图的嵌入作为一批,以减少不必要的操作。
-
整体算法流程(Put Them Together):
- 算法1概述了RoSGAS的整体训练过程,包括子图嵌入的初始化和通过RL过程进行的架构搜索。
通过这些关键公式和方法,RoSGAS能够自适应地为每个目标用户选择最佳的子图宽度和GNN模型层数,同时利用自监督学习提高模型的泛化能力,并通过强化学习快速稳定地优化模型参数。这使得RoSGAS在社交机器人检测任务中表现出较高的准确性和效率。
3. 实验设计
本文主要介绍了RoSGAS在社交机器人检测任务中的应用,并通过多个实验对其效果进行了评估和比较。具体来说,本文对以下问题进行了回答:
不同算法在不同场景下的表现如何?
每个模块对整体效果的贡献是什么?
RL搜索机制的效果和可解释性如何?
算法的速度和收敛性能如何?
在新数据上的泛化能力如何?
如何探索高维数据并可视化结果?
接下来将对每个实验进行详细介绍:
不同算法在不同场景下的表现如何?
本文使用了五个公开数据集来评估RoSGAS和其他基线方法的表现。实验结果显示,RoSGAS显著优于其他基线方法,在所有情况下都取得了最好的测试结果。这表明RoSGAS在更广泛的社交机器人检测场景中具有可行性和适用性。
每个模块对整体效果的贡献是什么?
作者进行了多个变体实验,以研究每个模块对整体效果的贡献。结果表明,RL搜索机制可以有效地提高模型性能,而最近邻居机制可以加速模型训练和推广到新的数据上。此外,自我监督学习机制也可以进一步提高模型性能,尽管其影响可能较小。
RL搜索机制的效果和可解释性如何?
作者进行了参数搜索实验,以检查RL搜索机制是否能够选择最佳模型层数。结果表明,RL搜索机制可以选择最优的模型层数,并且与手动调整相比,其准确率更高。此外,作者还展示了不同层数对节点预测的影响,说明不同的节点需要不同数量的层才能达到最佳预测精度。
算法的速度和收敛性能如何?
作者评估了每个模型的训练时间,并发现RoSGAS可以在效率和准确性之间取得平衡。虽然简化版的ARMA和SGC模型训练速度较快,但它们的准确性较低。相比之下,RoSGAS-KL可以在时间和准确性方面实现良好的平衡。
在新数据上的泛化能力如何?
作者进行了交叉验证实验,以评估模型在新数据上的泛化能力。结果表明,RoSGAS在不同数据集上都能表现出色,证明了其在未知数据上的有效性和鲁棒性。
如何探索高维数据并可视化结果?
作者没有涉及这一部分的内容。
4. 总结
值得精读
该论文提出了一种基于Heterogeneous Information Network(HIN)和Graph Neural Network(GNN)的社交机器人检测框架RoSGAS。该框架使用多代理强化学习机制来搜索最合适的子图宽度和模型架构,并通过自监督学习来提高表示向量的区分度。实验结果表明,RoSGAS在五个Twitter数据集上优于现有方法,并且具有较高的准确性和稳定性。 此外,该论文还提出了以下创新点:
- 使用HIN来建模实体和关系,定义节点和边的关系类型约束;
- 提出了一种多代理强化学习机制来选择最优的子图宽度和模型层数;
- 利用残差结构保留目标用户的特点,克服了过平滑问题;
- 结合自监督学习来增强表示向量的区分度。
5. 局限性
未来可以考虑将该方法应用于其他社交媒体平台的数据集,并进一步探索如何结合更多的信息源来进行社交机器人检测。同时,也可以尝试将该方法扩展到其他领域中,如网络安全等。