基于深度生物学引导辅助学习的多模态数据整合和插补来改进基因型-表型预测

news2024/11/10 12:05:45

DeepGAMI: deep biologically guided auxiliary learning for multimodal integration and imputation to improve genotype–phenotype prediction

代码:https://github.com/daifengwanglab/DeepGAMI

abstract:

background:基因型与疾病表型密切相关,特别是在脑部疾病中。然而,这种关联背后的分子和细胞机制仍然难以捉摸。随着这些机制的多模态数据的出现,机器学习方法可以应用于不同尺度的表型预测,但由于机器学习的黑盒性质,整合这些模式并解释生物学机制可能具有挑战性。此外,这些多模态数据的部分可用性对开发这些预测模型提出了挑战。

method:为了解决这些挑战,开发了DeepGAMI,这是一个可解释的神经网络模型,用于从多模态数据中改进基因型-表型预测。DeepGAMI利用功能性基因组信息,如eqtl和基因调控,来指导神经网络连接。此外,它还包括一个用于跨模态推断的辅助学习层,可以推断缺失模态的潜在特征,从而从单一模态预测表型。最后,DeepGAMI使用集成梯度对各种表型的多模态特征进行优先排序。

results:将DeepGAMI应用于多个多模态数据集,包括脑疾病的基因型、体积和bulk基因表达数据,以及小鼠神经元细胞的基因表达和电生理数据。通过交叉验证和独立验证,DeepGAMI在疾病类型、细胞和临床表型分类方面优于现有方法,甚至使用单模态数据(例如,精神分裂症的AUC评分为0.79,阿尔茨海默病的认知障碍评分为0.73)。

conclusion:证明了DeepGAMI改善了表型预测,并在复杂大脑和脑部疾病的多个多模态数据集中优先考虑表型特征和网络。此外,它还优先考虑了与不同表型相关的疾病相关变异、基因和调控网络,为基因调控机制的解释提供了新的见解。

1 introduction:

        基因型-表型关联已在许多生物系统中被发现,如脑相关疾病和行为特征。这种关联是非常重要的,因为它将帮助我们理解潜在的细胞和分子机制,如基因和途径,因果影响表型。全基因组关联研究(GWAS)确定了遗传变异与许多遗传性疾病的关联,但它们也有一些局限性。首先,关联研究并不意味着因果关系,需要进一步的下游分析和验证。其次,GWAS研究是独立的研究,试图单独发现变异与疾病之间的关系,而忽略其综合效应。最后,效应量较小的snp未被发现,因为它们不符合现有研究的阈值标准。在GWAS研究之外,已经有一些计算尝试来发现基因型-表型关联。这些尝试大多涉及回归。多基因风险评分(Polygenic Risk Scores, PRS)[14]是一种广泛使用的方法,它观察几种变异对表型的线性组合效应。现代机器学习技术已被应用于预测这些表型的功能。

        为了了解从基因型到表型的机制,一些研究表明,这些变异通过改变影响潜在基因表达的细胞型调节元件来影响疾病风险,进而影响疾病表型。表达数量性状位点(eQTL)研究侧重于将遗传变异与基因表达联系起来,而不是将疾病表型联系起来。转录组全关联研究(Transcriptome-wide association studies, TWAS)旨在通过转录组全关联研究与基因表达的结合来鉴定基因与性状之间的相互作用。首先研究遗传变异对基因表达的影响,然后将这些表达谱与性状进行统计学关联。PrediXcan[32]是另一种从eqtl中输入基因表达并根据输入的基因表达数据绘制性状相关位点的方法。这种关联研究的一个可能的缺点是,共表达的基因模式经常导致优先考虑非因果基因[33]。

(介绍各种基因-表型方法的优缺点)

        Auxiliary learning辅助学习是一种旨在通过在学习主要任务的同时学习次要任务来提高主要任务泛化能力的学习技术[60-63]。次要任务也称为辅助任务,是与主要任务一起训练的子任务,其中任务之间共享特征,从而产生对主要任务有用的额外相关特征提取,因此通常根据估算与解决主要任务相关的实体来定义[64]。实现辅助学习涉及在神经网络模型的主要代价中添加补充代价函数[65]。辅助学习在强化学习[60,66,67]、计算机视觉[62,68,69]和自动驾驶中都非常成功。最近,它已被应用于生物医学领域,从显微镜图像中筛查皮肤癌[72],从CT图像中检测covid-19[73]。虽然辅助学习尚未应用于基因型-表型预测的多模态数据的输入,但最接近的方法是SCENA[74],它使用单细胞RNA-seq (scRNA-seq)数据的集成学习和辅助信息来估计基因-基因相关矩阵,其中辅助信息以基因网络和其他相关RNA-seq数据的形式使用。同样,DeepDiff[75]通过使用细胞型基因表达预测作为辅助任务,从表观遗传学预测细胞类型特异性差异基因表达。

        综上所述,基因型-表型预测对于理解分子和细胞机制非常重要,但现有的基因型-表型方法存在以下局限性:(1)多基因风险评分(PRS)等统计方法直接从基因型预测表型。它们大多是线性模型,无法解决基因组变异的非线性效应,并且涉及预测基因型和表型之间相关性的关联研究,但无法解释遗传突变如何与表型相关[76,77]。此外,这些方法不考虑中间表型,如显著促进表型的分子活动;(2)群体水平上新兴的多组学数据使机器学习能够在从基因型到表型的不同尺度上研究这些机制。然而,由于许多机器学习技术的黑箱性质,整合这些多种模式并在预测后解释生物机制是具有挑战性的,特别是当某些模式缺失时;(3) grn和eqtl等功能基因组关系指导我们理解这些分子机制。然而,大多数现有的机器学习方法,包括gnn,都不能处理这种关系数据,因为它们不像图那样具有空间关系,并且需要花费大量的精力将它们转换成类似图的结构。(IV)一些方法侧重于单细胞多组学数据的跨模态估计(例如MOFA [56], MultiVI [78], Polarbear[79]),但不在疾病类型和临床表型领域。

(QTL是数量性状位点,比如身高是一个数量性状,其对应的控制基因的位点就是一个数量性状位点,而eQTL就是控制数量性状表达位点,即能控制数量性状基因(如身高基因)表达水平高低的那些基因的位点,大部分是SNP。)

(GRN是生物体内控制基因表达的机制,基因表达的主要过程是转录+翻译)

       为了解决这些挑战,开发了DeepGAMI,这是一个可解释的神经网络模型,用于从多模态数据中改进基因型-表型预测。DeepGAMI利用功能性基因组信息,如eqtl和基因调控,来指导神经网络连接。此外,它还包括一个用于跨模态推断的辅助学习层,可以推断缺失模态的潜在特征,从而从单一模态预测表型。最后,DeepGAMI使用集成梯度对各种表型的多模态特征进行优先排序。

2 method:

如图所示,DeepGAMI模型主要由四层组成:

2.1 输入层

        输入层包含两个模态的数据,例如基因表达数据和SNP基因型数据。输入矩阵的每一行表示一个样本的特征向量。例如,基因表达矩阵包含K个样本和n个转录因子TF的基因表达谱,表示成X^{GEX}∈R^(K∗n)。基因型矩阵由K个样品和l个snp组成,X^{SNP}∈R^(K * l)。

2.2 生物DropConnect层

        DropConnect是一种正则化机制,它将每层中的随机激活单元设置为零。它与dropout不同,dropout将随机输出单元设置为零,而dropout将连接权值设置为零[80]。为了达到我们的目的,我们不是将激活随机设置为零,而是使用先前的生物学知识来指导激活,如式1和2所示。

符号解释:

C_{k}^{SNP}:第k个样本的中间层的基因特征

X_{k}^{SNP}X^{SNP}的第k行

w1、w2:表示权重矩阵,大小分别是l*p和n*p

b1、b2:表示长度为p的偏执向量

⊙:阿达玛乘积(逐元素乘法)

m:掩码过滤器来编码生物DropConnect层,如下所示

m^{eQTL}建模SNP到基因的调控关系、m^{GRN}建模TFs到基因的调控关系。作者训练模型来学习这些连接的权重,以优先考虑有助于表型的重要特征(SNP、基因等)和重要相互作用(SNP-基因和基因-基因)。该层的输出被称为输入矩阵的潜在空间。

(写的很烦啊啊啊啊啊,没关系的鹿小葵你可以!!)

2.3 辅助学习层

        输入层的每个数据模态都经过生物DropConnect层,产生一组等维的输出节点(C^(GEX), C^(SNP))。这一层的目的是从另一个模态中学习一种模态的潜在空间。我们考虑两个潜在空间之间的线性关系,使用Eq. 5计算。

a、β是权重和偏差的标量,作者连接了两个潜在的空间向量,并将它们发送到前馈神经网络。这样可以得到一个潜在空间向量的平均信号,但作者没有不考虑它,因为每个潜在节点可以从两个输入或只有一个输入中被激活。

2.4 前馈分类层

        把拼接的基因层特征输入到具有多个隐藏层的全连接前馈神经网络,其中隐藏层中的每个神经元接收来自所有前一层输出的输入。使用ReLU函数作为激活函数。最后的隐藏层通过softmax层得到预测分类。

3 实验

train和test是8:2,对训练集进行五倍交叉验证用于特征选择和识别最优参数组合。然后,我们根据五重CV选择性能最好的模型,并在测试集上评估最终性能。训练DeepGAMI模型涉及最小化总体损失函数,该函数是主要任务(表型预测)损失次要任务(交叉模态估计)损失的组合。用于主要任务的损失函数是交叉熵损失(Eq. 8),均方误差(MSE)损失用于次要任务(Eq. 9)。

后面越看越觉得偏生物啊。。。组会汇报这篇会不会被骂。。。

4 result

        对多种阿尔茨海默病临床表型预测,其中,临床表型包括:COGDX(认知诊断)评分在0-6之间,CERAD(用于确定阿尔茨海默病的神经炎斑块半定量测量)评分在0-4之间,BRAAK(神经纤维缠结病理半定量测量)包括6个阶段。作者编码COGDX分为三类(得分0-1,无认知障碍(CI);得分2-3,轻度认知障碍(Mid CI);得分4-6,有认知障碍(CI(AD/Dementia))),CERAD分为三类(得分3-4,没有阿尔茨海默病;得分2,可能有阿尔茨海默病;得分0-1,有阿尔茨海默病),BRAAK表型分为两类(早期阶段,包含BRAAK状态0-3;晚期阶段,包含BRAAK状态4-6)。DeepGAMI的性能如图3A、B、C所示。作者对无认知障碍(CI)、轻度认知障碍(Mid CI)和认知障碍CI(AD/Dementia))三类COGDX表型相关的优先级较高的基因进行富集分析,如图3D所示,这些基因被富集到多个已知的认知障碍相关的功能和通路。同时,DeepGAMI能够得到一个与认知障碍表型的相关的调控网络,如图3E所示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2033536.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据结构之C语言实现栈】

1.栈 的 概 念 与 结 构 栈: 一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据的插入和删除操作的一端称为栈顶,另一…

【代码随想录训练营第42期 Day26打卡 贪心Part1 - LeetCode 455.分发饼干 376. 摆动序列 53. 最大子序和

目录 一、贪心 二、题目与题解 题目一:455.分发饼干 题目链接 题解:排序双指针贪心 题目二:376. 摆动序列 题目链接 题解:贪心 题目三:53. 最大子序和 题目链接 题解1:暴力(失败&…

立体相机镜面重建(二)双目立体镜面重建

使用双目相机,配合镜子、屏幕,可以直接获得镜面的三维数据,无需先验知识。因此使用双目镜面重建方式对镜子表面进行重建。 (一)重建步骤 使用左相机光线法来计算镜面点: 1.取一个像素点,计算其…

linux中安装达梦DM8

目录 场景: 安装准备 安装 新建 dmdba 用户 修改文件打开最大数 创建实例保存目录、归档保存目录、备份保存目录。 挂载镜像,命令行安装 ​编辑 配置环境变量 配置实例-命令行方式初始化实例 命令行注册服务 命令行启停数据库 数据库连接测试…

计算机网络部分基础知识

网络协议的意义 单台主机内部的设备之间需要发送和接收消息,那么和相隔很远的两台主机之间发送消息有什么区别呢?两台主机通过网络发送消息,相当于两个网卡设备之间进行通信,最大的区别在于距离变长了。而距离变长带来的结果就是&…

Gartner发布中国MDR托管检测和响应服务市场指南:中国不同类型的机构对MDR的需求对比

中国企业正越来越多地受益于提供现代安全运营中心功能的托管检测和响应服务。中国首席信息官和安全领导者应利用这项研究来了解中国的托管检测和响应市场及其动态。 主要发现 根据 CYBERSECURITY REVIEWS 的《2023 年中国网络安全运营市场研究报告》,超过 97%的中国…

【数据结构】六、图:4.图的遍历(深度优先算法DFS、广度优先算法BFS)

三、基本操作 文章目录 三、基本操作1.图的遍历1.1 深度优先遍历DFS1.1.1 DFS算法1.1.2 DFS算法的性能分析1.1.3 深度优先的生成树和生成森林 1.2 广度优先遍历BFS1.2.1 BFS算法1.2.2 BFS算法性能分析1.2.3 广度优先的生成树和生成森林 1.3 图的遍历与图的连通性 1.图的遍历 图…

synergy A problem occurred during installation, try installing.

系统:macos m2 解决方式: 在 ~/Library/LaunchAgents/ 目录下, 新建 com.symless.synergy3.plist 文件,并chown为当前用户。初始化成功

Latex或者word里面mathtype类型的数学公式如何变成mathematica里面的形式

详细步骤如下: 第一步:Latex里面的公式复制粘贴到word里面,转变成mathtype类型的数学公式(若已经是word里面mathtype类型的数学公式,这一步可以省略),如下: 第二步:将ma…

探索SD NAND配套测试工具:工程师的得力助手

在快速发展的存储技术领域,SD NAND因其高速读写、低功耗和高可靠性而广受青睐。然而,对于工程师来说,验证SD NAND的性能并非易事,为了便于工程师验证,MK 米客方德开发设计了SD NAND配套测试工具。 一、SD NAND转接板简…

深度学习-----------------多个输入和输出通道

目录 多个输入通道多个输出通道多个输入和输出通道11卷积层二维卷积层总结多输入多输出通道代码实现多输入单输出通道代码实现多输出通道代码实现该部分代码 多输入多输出通道总代码多个输入和输出通道用途 11卷积该部分总代码 问题 多个输入通道 彩色图像可能有RGB三个通道 转…

【AWS账号解绑关联】Linker账号解绑重新关联注意事项

文章目录 一、来自客户疑问二、提交工单获取帮助三、最佳操作说明四、最佳操作步骤五、参考资料活动上新 一、来自客户疑问 将Linker账号,从一个组织中退出,重新关联到新的组织中,这解绑到重新完成新的关联绑定期间会在Linker账号中的账单中…

Markdown编写及语法

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…

Linux 驱动入门(2)—— LED驱动

目录 前言 一、编译替换内核和设备树 二、GPIO子系统 1.引脚编号 2.基于sysfs操作引脚 3.GPIO子系统的函数 三、LED驱动编写 前言 在这里主要记录学习韦东山老师Linux驱动课程的笔记,韦东山老师的驱动课程讲的非常好,想要学习驱动的小伙伴可以去…

mp3转换工具哪个好用?不影响音质的转换器分享

暑假里,#大学生暑期生活日常#总是充满活力,有的同学会选择通过音乐来放松心情,享受生活。 但有时候,我们下载的音乐文件格式并不总是我们想要的,这时候使用mp3格式转换器在线转换音频就是最好的选择。 接下来&#x…

【使用教程】CiA402中的“原点回归模式”和“轮廓位置模式”搭配使用操作实例

使用“原点回归模式”配合“轮廓位置模式”是步进或伺服电机使用过程中最常用的方法,其对于提高自动化生产线的准确性和效率具有重要意义,本文将对正常使用控制电机中发送的命令及顺序进行简要说明。 说明:“原点回归”以“堵转回原点”的方式…

RT-DETR中的CCFF结构代码详解(Pytorch)

代码链接 lyuwenyu/RT-DETR: [CVPR 2024] Official RT-DETR (RTDETR paddle pytorch), Real-Time DEtection TRansformer, DETRs Beat YOLOs on Real-time Object Detection. 🔥 🔥 🔥 (github.com)https://github.com/lyuwenyu/RT-DETR 模…

计算机网络408考研 2015

计算机网络408考研2015年真题解析_哔哩哔哩_bilibili 1 1线路编码(NRZ,NRZI,8B/10B,Manchester)与加扰_nrz编码-CSDN博客 1 1 11

sunspec协议储能电能计量装置

电网公司通常要求光伏并网系统为不可逆流发电系统,即光伏并网系统所发的电由本地负荷消耗,多余的电不允许通过低压配电变压器向上级电网逆向送电。在并网发电系统中,由于外部环境是不断变化的,为了防止光伏并网系统逆向发电&#…

DLL修复工具免费版本推荐:有效修复DLL文件问题

在Windows系统中,DLL(动态链接库)文件扮演着至关重要的角色。它们为多个程序共享代码和资源,节省内存并促进程序之间的高效运行。然而,DLL文件的损坏或丢失可能导致各种问题,如程序崩溃、系统不稳定甚至蓝屏…