GRN前沿：DGCGRN：基于有向图卷积网络的基因调控网络推理

news2025/4/3 22:35:56

1.论文原名：Inference of gene regulatory networks based on directed graph convolutional networks

2.发表日期：2024

DGCGRN框架

中心节点和节点的构建

局部增强策略

1. 问题背景

在基因调控网络中，许多节点的连接度较低（即低度节点），这些节点在图结构中包含的信息较少。传统的图神经网络（GNN）在处理这类低度节点时，可能会因为缺乏足够的邻域信息而导致特征表达能力不足，进而影响整体的预测性能。因此，需要一种方法来增强这些低度节点的特征表示。

2. 局部增强策略的核心思想

局部增强策略的核心是通过生成模型（CVAE）为低度节点生成额外的邻域特征，从而增强其特征表达能力。具体来说，该策略利用节点的局部结构信息和特征分布，生成与中心节点特征相关的邻域节点特征。这种方法可以在不改变整体图结构的前提下，为低度节点提供更丰富的特征信息。

3. 条件变分自编码器（CVAE）

CVAE是一种生成模型，结合了变分自编码器（VAE）和条件生成对抗网络（GAN）的思想。它通过编码器将输入数据编码为潜在空间的分布，然后通过解码器生成新的数据。在DGCGRN中，CVAE被用于生成邻域节点的特征，具体步骤如下：

局部增强策略的优势

针对性增强低度节点：通过生成邻域特征，为低度节点提供额外的特征信息，增强其在图神经网络中的表达能力。
保留局部结构信息：CVAE在生成邻域特征时，考虑了中心节点的特征分布，因此生成的特征与局部结构相关，能够更好地保留图的局部信息。
提升模型性能：通过增强低度节点的特征，模型能够更准确地捕捉节点间的调控关系，从而提升GRN推断的整体性能。

序列特征提取

1. 序列特征提取模块的背景和动机

在基因调控网络（GRN）推断中，基因表达数据通常是主要的输入特征。然而，基因表达数据的维度可能较低，尤其是在处理真实生物数据时。此外，基因表达数据只能反映基因在特定条件下的表达水平，而无法提供基因序列本身的结构信息。这些结构信息对于理解基因的调控机制至关重要，因为基因序列中的某些模式（如转录因子结合位点）直接影响基因的调控。

因此，DGCGRN引入了序列特征提取模块，通过从基因序列中提取额外的特征来补充基因表达数据。这些序列特征不仅能够提供基因序列的结构信息，还能增强模型对基因调控关系的推断能力。

2. 序列特征提取模块的实现细节

序列特征提取模块主要通过两种方法提取序列特征：

隐藏特征提取（Hidden Features Extraction）：使用双向门控循环单元（Bi-GRU）模型提取基因序列的隐藏特征。
理化特征计算（Physicochemical Features Calculation）：计算基因序列的物理化学性质，如Z-curve、GC含量、AT/GC比等。

2.1 隐藏特征提取（Hidden Features Extraction）

2.1.1 Bi-GRU模型

Bi-GRU（双向门控循环单元）是一种基于循环神经网络（RNN）的模型，能够处理序列数据的时间依赖性和上下文信息。Bi-GRU通过双向处理输入序列，能够捕捉序列的前向和后向依赖关系，从而提取更全面的特征。

输入：基因序列被分割成多个k-mer片段（长度为k的子序列），每个k-mer片段通过one-hot编码表示。
处理：Bi-GRU模型对这些k-mer片段进行处理，提取隐藏特征。
输出：Bi-GRU模型输出每个基因序列的隐藏特征向量。

具体步骤：

k-mer分割：将基因序列分割成多个长度为k的子序列（k-mer片段）。例如，对于一个基因序列“ATGCGT”，如果k=3，则分割为“ATG”、“TGC”、“GCG”、“CGT”。
One-hot编码：将每个k-mer片段通过one-hot编码表示。例如，对于4个核苷酸（A、C、G、T），每个核苷酸可以用一个4维的向量表示。
Bi-GRU处理：将编码后的k-mer片段输入到Bi-GRU模型中，提取隐藏特征。

示例：假设基因序列“ATGCGT”被分割成3-mer片段“ATG”、“TGC”、“GCG”、“CGT”，每个片段通过one-hot编码表示后输入到Bi-GRU模型中，最终输出一个隐藏特征向量。

基于有向图卷积网络的GRN预测

1. 有向图卷积网络（DGCN）的背景和动机

1.1 传统GCN的局限性

传统的图卷积网络（GCN）主要用于处理无向图数据。在无向图中，边没有方向，因此GCN通过聚合邻域节点的信息来更新节点的特征表示。然而，在基因调控网络（GRN）中，调控关系是有方向的（例如，转录因子A调控基因B，但基因B不一定调控转录因子A）。如果直接将无向图的处理方法应用于有向图，会丢失调控关系的方向性信息，从而影响推断的准确性。

1.2 DGCN的优势

DGCN通过引入有向图的处理机制，能够直接处理有向图数据，保留调控关系的方向性。具体来说，DGCN通过定义一阶和二阶邻近矩阵，能够更好地捕捉节点之间的直接和间接调控关系，从而提高GRN推断的准确性。