1.论文原名:Inference of gene regulatory networks based on directed graph convolutional networks
2.发表日期:2024
DGCGRN框架
中心节点和节点的构建
局部增强策略
1. 问题背景
在基因调控网络中,许多节点的连接度较低(即低度节点),这些节点在图结构中包含的信息较少。传统的图神经网络(GNN)在处理这类低度节点时,可能会因为缺乏足够的邻域信息而导致特征表达能力不足,进而影响整体的预测性能。因此,需要一种方法来增强这些低度节点的特征表示。
2. 局部增强策略的核心思想
局部增强策略的核心是通过生成模型(CVAE)为低度节点生成额外的邻域特征,从而增强其特征表达能力。具体来说,该策略利用节点的局部结构信息和特征分布,生成与中心节点特征相关的邻域节点特征。这种方法可以在不改变整体图结构的前提下,为低度节点提供更丰富的特征信息。
3. 条件变分自编码器(CVAE)
CVAE是一种生成模型,结合了变分自编码器(VAE)和条件生成对抗网络(GAN)的思想。它通过编码器将输入数据编码为潜在空间的分布,然后通过解码器生成新的数据。在DGCGRN中,CVAE被用于生成邻域节点的特征,具体步骤如下:
局部增强策略的优势
-
针对性增强低度节点:通过生成邻域特征,为低度节点提供额外的特征信息,增强其在图神经网络中的表达能力。
-
保留局部结构信息:CVAE在生成邻域特征时,考虑了中心节点的特征分布,因此生成的特征与局部结构相关,能够更好地保留图的局部信息。
-
提升模型性能:通过增强低度节点的特征,模型能够更准确地捕捉节点间的调控关系,从而提升GRN推断的整体性能。
序列特征提取
1. 序列特征提取模块的背景和动机
在基因调控网络(GRN)推断中,基因表达数据通常是主要的输入特征。然而,基因表达数据的维度可能较低,尤其是在处理真实生物数据时。此外,基因表达数据只能反映基因在特定条件下的表达水平,而无法提供基因序列本身的结构信息。这些结构信息对于理解基因的调控机制至关重要,因为基因序列中的某些模式(如转录因子结合位点)直接影响基因的调控。
因此,DGCGRN引入了序列特征提取模块,通过从基因序列中提取额外的特征来补充基因表达数据。这些序列特征不仅能够提供基因序列的结构信息,还能增强模型对基因调控关系的推断能力。
2. 序列特征提取模块的实现细节
序列特征提取模块主要通过两种方法提取序列特征:
-
隐藏特征提取(Hidden Features Extraction):使用双向门控循环单元(Bi-GRU)模型提取基因序列的隐藏特征。
-
理化特征计算(Physicochemical Features Calculation):计算基因序列的物理化学性质,如Z-curve、GC含量、AT/GC比等。
2.1 隐藏特征提取(Hidden Features Extraction)
2.1.1 Bi-GRU模型
Bi-GRU(双向门控循环单元)是一种基于循环神经网络(RNN)的模型,能够处理序列数据的时间依赖性和上下文信息。Bi-GRU通过双向处理输入序列,能够捕捉序列的前向和后向依赖关系,从而提取更全面的特征。
-
输入:基因序列被分割成多个k-mer片段(长度为k的子序列),每个k-mer片段通过one-hot编码表示。
-
处理:Bi-GRU模型对这些k-mer片段进行处理,提取隐藏特征。
-
输出:Bi-GRU模型输出每个基因序列的隐藏特征向量。
具体步骤:
-
k-mer分割:将基因序列分割成多个长度为k的子序列(k-mer片段)。例如,对于一个基因序列“ATGCGT”,如果k=3,则分割为“ATG”、“TGC”、“GCG”、“CGT”。
-
One-hot编码:将每个k-mer片段通过one-hot编码表示。例如,对于4个核苷酸(A、C、G、T),每个核苷酸可以用一个4维的向量表示。
-
Bi-GRU处理:将编码后的k-mer片段输入到Bi-GRU模型中,提取隐藏特征。
示例: 假设基因序列“ATGCGT”被分割成3-mer片段“ATG”、“TGC”、“GCG”、“CGT”,每个片段通过one-hot编码表示后输入到Bi-GRU模型中,最终输出一个隐藏特征向量。
基于有向图卷积网络的GRN预测
1. 有向图卷积网络(DGCN)的背景和动机
1.1 传统GCN的局限性
传统的图卷积网络(GCN)主要用于处理无向图数据。在无向图中,边没有方向,因此GCN通过聚合邻域节点的信息来更新节点的特征表示。然而,在基因调控网络(GRN)中,调控关系是有方向的(例如,转录因子A调控基因B,但基因B不一定调控转录因子A)。如果直接将无向图的处理方法应用于有向图,会丢失调控关系的方向性信息,从而影响推断的准确性。
1.2 DGCN的优势
DGCN通过引入有向图的处理机制,能够直接处理有向图数据,保留调控关系的方向性。具体来说,DGCN通过定义一阶和二阶邻近矩阵,能够更好地捕捉节点之间的直接和间接调控关系,从而提高GRN推断的准确性。
4. GRN预测模块的流程
基于DGCN的GRN预测模块的完整流程如下:
-
输入特征:将增强后的节点特征(包括基因表达特征、序列特征和局部增强特征)作为输入。
-
图卷积操作:通过DGCN的谱卷积操作,结合一阶和二阶邻近矩阵,更新节点的特征表示。
-
动态更新策略:在每次迭代中,根据预测的调控关系更新边的权重,生成新的加权图。
-
输出预测结果:最终,模型输出节点之间的调控关系预测结果,包括调控关系的存在概率和方向。
5. DGCN的优势和作用
5.1 保留调控关系的方向性
DGCN通过处理有向图数据,保留了基因调控关系的方向性,从而提高了GRN推断的准确性。
5.2 捕捉直接和间接调控关系
通过定义一阶和二阶邻近矩阵,DGCN能够捕捉节点之间的直接和间接调控关系,从而更好地理解基因调控网络的全局结构。
5.3 动态更新策略
动态更新策略使模型能够根据每次迭代的结果调整图结构,从而更好地捕捉节点之间的调控关系,进一步提高模型的预测性能。
细节补充:动态更新策略
1. 动态更新策略的背景和动机
在传统的图神经网络(GNN)中,图结构通常是静态的,即边的权重在训练过程中不会改变。然而,在基因调控网络(GRN)推断中,调控关系的强度可能因节点之间的相互作用而有所不同。静态图结构无法有效捕捉这种动态变化,从而限制了模型的预测能力。
为了解决这一问题,DGCGRN引入了动态更新策略。该策略通过在每次迭代中更新边的权重,使模型能够根据当前预测结果动态调整图结构,从而更好地反映节点之间的调控关系强度。
3. 动态更新策略的作用和优势
3.1 提高预测准确性
通过动态更新边权重,模型能够根据当前预测结果调整图结构,从而更好地反映节点之间的调控关系强度。这有助于提高模型对调控关系的预测准确性。
3.2 捕捉动态变化
基因调控网络中的调控关系可能因环境变化或节点状态而有所不同。动态更新策略能够捕捉这种动态变化,使模型在训练过程中不断优化图结构。
3.3 增强模型的适应性
动态更新策略使模型能够自适应地调整图结构,从而更好地适应不同的数据集和调控关系模式。实验结果表明,加入动态更新策略后,模型的预测性能显著提升。