基于深度生物学引导辅助学习的多模态数据整合和插补来改进基因型-表型预测

DeepGAMI: deep biologically guided auxiliary learning for multimodal integration and imputation to improve genotype–phenotype prediction

代码：https://github.com/daifengwanglab/DeepGAMI

abstract：

background：基因型与疾病表型密切相关，特别是在脑部疾病中。然而，这种关联背后的分子和细胞机制仍然难以捉摸。随着这些机制的多模态数据的出现，机器学习方法可以应用于不同尺度的表型预测，但由于机器学习的黑盒性质，整合这些模式并解释生物学机制可能具有挑战性。此外，这些多模态数据的部分可用性对开发这些预测模型提出了挑战。

method：为了解决这些挑战，开发了DeepGAMI，这是一个可解释的神经网络模型，用于从多模态数据中改进基因型-表型预测。DeepGAMI利用功能性基因组信息，如eqtl和基因调控，来指导神经网络连接。此外，它还包括一个用于跨模态推断的辅助学习层，可以推断缺失模态的潜在特征，从而从单一模态预测表型。最后，DeepGAMI使用集成梯度对各种表型的多模态特征进行优先排序。

results：将DeepGAMI应用于多个多模态数据集，包括脑疾病的基因型、体积和bulk基因表达数据，以及小鼠神经元细胞的基因表达和电生理数据。通过交叉验证和独立验证，DeepGAMI在疾病类型、细胞和临床表型分类方面优于现有方法，甚至使用单模态数据(例如，精神分裂症的AUC评分为0.79，阿尔茨海默病的认知障碍评分为0.73)。

conclusion：证明了DeepGAMI改善了表型预测，并在复杂大脑和脑部疾病的多个多模态数据集中优先考虑表型特征和网络。此外，它还优先考虑了与不同表型相关的疾病相关变异、基因和调控网络，为基因调控机制的解释提供了新的见解。

1 introduction:

基因型-表型关联已在许多生物系统中被发现，如脑相关疾病和行为特征。这种关联是非常重要的，因为它将帮助我们理解潜在的细胞和分子机制，如基因和途径，因果影响表型。全基因组关联研究(GWAS)确定了遗传变异与许多遗传性疾病的关联，但它们也有一些局限性。首先，关联研究并不意味着因果关系，需要进一步的下游分析和验证。其次，GWAS研究是独立的研究，试图单独发现变异与疾病之间的关系，而忽略其综合效应。最后，效应量较小的snp未被发现，因为它们不符合现有研究的阈值标准。在GWAS研究之外，已经有一些计算尝试来发现基因型-表型关联。这些尝试大多涉及回归。多基因风险评分(Polygenic Risk Scores, PRS)[14]是一种广泛使用的方法，它观察几种变异对表型的线性组合效应。现代机器学习技术已被应用于预测这些表型的功能。

为了了解从基因型到表型的机制，一些研究表明，这些变异通过改变影响潜在基因表达的细胞型调节元件来影响疾病风险，进而影响疾病表型。表达数量性状位点(eQTL)研究侧重于将遗传变异与基因表达联系起来，而不是将疾病表型联系起来。转录组全关联研究(Transcriptome-wide association studies, TWAS)旨在通过转录组全关联研究与基因表达的结合来鉴定基因与性状之间的相互作用。首先研究遗传变异对基因表达的影响，然后将这些表达谱与性状进行统计学关联。PrediXcan[32]是另一种从eqtl中输入基因表达并根据输入的基因表达数据绘制性状相关位点的方法。这种关联研究的一个可能的缺点是，共表达的基因模式经常导致优先考虑非因果基因[33]。

（介绍各种基因-表型方法的优缺点）

Auxiliary learning辅助学习是一种旨在通过在学习主要任务的同时学习次要任务来提高主要任务泛化能力的学习技术[60-63]。次要任务也称为辅助任务，是与主要任务一起训练的子任务，其中任务之间共享特征，从而产生对主要任务有用的额外相关特征提取，因此通常根据估算与解决主要任务相关的实体来定义[64]。实现辅助学习涉及在神经网络模型的主要代价中添加补充代价函数[65]。辅助学习在强化学习[60,66,67]、计算机视觉[62,68,69]和自动驾驶中都非常成功。最近，它已被应用于生物医学领域，从显微镜图像中筛查皮肤癌[72]，从CT图像中检测covid-19[73]。虽然辅助学习尚未应用于基因型-表型预测的多模态数据的输入，但最接近的方法是SCENA[74]，它使用单细胞RNA-seq (scRNA-seq)数据的集成学习和辅助信息来估计基因-基因相关矩阵，其中辅助信息以基因网络和其他相关RNA-seq数据的形式使用。同样，DeepDiff[75]通过使用细胞型基因表达预测作为辅助任务，从表观遗传学预测细胞类型特异性差异基因表达。

综上所述，基因型-表型预测对于理解分子和细胞机制非常重要，但现有的基因型-表型方法存在以下局限性:(1)多基因风险评分(PRS)等统计方法直接从基因型预测表型。它们大多是线性模型，无法解决基因组变异的非线性效应，并且涉及预测基因型和表型之间相关性的关联研究，但无法解释遗传突变如何与表型相关[76,77]。此外，这些方法不考虑中间表型，如显著促进表型的分子活动;(2)群体水平上新兴的多组学数据使机器学习能够在从基因型到表型的不同尺度上研究这些机制。然而，由于许多机器学习技术的黑箱性质，整合这些多种模式并在预测后解释生物机制是具有挑战性的，特别是当某些模式缺失时;(3) grn和eqtl等功能基因组关系指导我们理解这些分子机制。然而，大多数现有的机器学习方法，包括gnn，都不能处理这种关系数据，因为它们不像图那样具有空间关系，并且需要花费大量的精力将它们转换成类似图的结构。(IV)一些方法侧重于单细胞多组学数据的跨模态估计(例如MOFA [56]， MultiVI [78]， Polarbear[79])，但不在疾病类型和临床表型领域。

（QTL是数量性状位点，比如身高是一个数量性状，其对应的控制基因的位点就是一个数量性状位点，而eQTL就是控制数量性状表达位点，即能控制数量性状基因（如身高基因）表达水平高低的那些基因的位点，大部分是SNP。）

（GRN是生物体内控制基因表达的机制，基因表达的主要过程是转录+翻译）

为了解决这些挑战，开发了DeepGAMI，这是一个可解释的神经网络模型，用于从多模态数据中改进基因型-表型预测。DeepGAMI利用功能性基因组信息，如eqtl和基因调控，来指导神经网络连接。此外，它还包括一个用于跨模态推断的辅助学习层，可以推断缺失模态的潜在特征，从而从单一模态预测表型。最后，DeepGAMI使用集成梯度对各种表型的多模态特征进行优先排序。

2 method：

如图所示，DeepGAMI模型主要由四层组成：

2.1 输入层

输入层包含两个模态的数据，例如基因表达数据和SNP基因型数据。输入矩阵的每一行表示一个样本的特征向量。例如，基因表达矩阵包含K个样本和n个转录因子TF的基因表达谱，表示成 $X^{GEX}$ ∈R^(K∗n)。基因型矩阵由K个样品和l个snp组成， $X^{SNP}$ ∈R^(K * l)。

2.2 生物DropConnect层

DropConnect是一种正则化机制，它将每层中的随机激活单元设置为零。它与dropout不同，dropout将随机输出单元设置为零，而dropout将连接权值设置为零[80]。为了达到我们的目的，我们不是将激活随机设置为零，而是使用先前的生物学知识来指导激活，如式1和2所示。

符号解释：

$C_{k}^{SNP}$ ：第k个样本的中间层的基因特征

$X_{k}^{SNP}$ ： $X^{SNP}$ 的第k行

w1、w2：表示权重矩阵，大小分别是l*p和n*p

b1、b2：表示长度为p的偏执向量

⊙：阿达玛乘积(逐元素乘法)

m：掩码过滤器来编码生物DropConnect层，如下所示

$m^{eQTL}$ 建模SNP到基因的调控关系、 $m^{GRN}$ 建模TFs到基因的调控关系。作者训练模型来学习这些连接的权重，以优先考虑有助于表型的重要特征（SNP、基因等）和重要相互作用（SNP-基因和基因-基因）。该层的输出被称为输入矩阵的潜在空间。

（写的很烦啊啊啊啊啊，没关系的鹿小葵你可以！！）

2.3 辅助学习层

输入层的每个数据模态都经过生物DropConnect层，产生一组等维的输出节点(C^(GEX), C^(SNP))。这一层的目的是从另一个模态中学习一种模态的潜在空间。我们考虑两个潜在空间之间的线性关系，使用Eq. 5计算。

a、β是权重和偏差的标量，作者连接了两个潜在的空间向量，并将它们发送到前馈神经网络。这样可以得到一个潜在空间向量的平均信号，但作者没有不考虑它，因为每个潜在节点可以从两个输入或只有一个输入中被激活。

2.4 前馈分类层

把拼接的基因层特征输入到具有多个隐藏层的全连接前馈神经网络，其中隐藏层中的每个神经元接收来自所有前一层输出的输入。使用ReLU函数作为激活函数。最后的隐藏层通过softmax层得到预测分类。

3 实验

train和test是8:2，对训练集进行五倍交叉验证用于特征选择和识别最优参数组合。然后，我们根据五重CV选择性能最好的模型，并在测试集上评估最终性能。训练DeepGAMI模型涉及最小化总体损失函数，该函数是主要任务(表型预测)损失和次要任务(交叉模态估计)损失的组合。用于主要任务的损失函数是交叉熵损失(Eq. 8)，均方误差(MSE)损失用于次要任务(Eq. 9)。

后面越看越觉得偏生物啊。。。组会汇报这篇会不会被骂。。。

4 result

对多种阿尔茨海默病临床表型预测，其中，临床表型包括：COGDX（认知诊断）评分在0-6之间，CERAD（用于确定阿尔茨海默病的神经炎斑块半定量测量）评分在0-4之间，BRAAK（神经纤维缠结病理半定量测量）包括6个阶段。作者编码COGDX分为三类（得分0-1，无认知障碍（CI）；得分2-3，轻度认知障碍（Mid CI）；得分4-6，有认知障碍（CI(AD/Dementia)）），CERAD分为三类（得分3-4，没有阿尔茨海默病；得分2，可能有阿尔茨海默病；得分0-1，有阿尔茨海默病），BRAAK表型分为两类（早期阶段，包含BRAAK状态0-3；晚期阶段，包含BRAAK状态4-6）。DeepGAMI的性能如图3A、B、C所示。作者对无认知障碍（CI）、轻度认知障碍（Mid CI）和认知障碍CI(AD/Dementia)）三类COGDX表型相关的优先级较高的基因进行富集分析，如图3D所示，这些基因被富集到多个已知的认知障碍相关的功能和通路。同时，DeepGAMI能够得到一个与认知障碍表型的相关的调控网络，如图3E所示。