论文阅读(十一):基因-表型关联贝叶斯网络模型的评分、搜索和评估

news2025/4/17 19:55:22

1.论文链接:Scoring, Searching and Evaluating Bayesian Network Models of Gene-phenotype Association

摘要:

全基因组关联研究(GWAS)的到来为识别常见疾病的遗传变异(单核苷酸多态性(SNP))提供了令人兴奋的可能性。然而,我们对常见疾病的遗传结构的了解仍然有限。一个可能的原因是基因、环境和所研究疾病之间的复杂相互作用。本章讨论了三个方面,预计将有助于取得进展,揭示一些这些复杂的相互作用,使用GWAS数据集。首先,结果显示,比较各种贝叶斯网络评分标准的性能。其次,开发启发式搜索算法来从高维数据中学习复杂的交互是一个热门话题。第三,全基因组上位性检测中涉及的假设检验与标准GWAS分析中涉及的假设检验有很大不同,标准GWAS分析中只考虑零假设和替代假设。

关键词:全基因组关联研究,上位性,贝叶斯网络,评分

全基因组关联研究(GWAS)的到来为识别常见疾病的遗传变异(单核苷酸多态性或SNP)提供了令人兴奋的可能性。然而,我们对常见疾病的遗传结构的了解仍然有限。一个可能的原因是基因、环境和所研究疾病之间的复杂相互作用。本章讨论了三个方面,预计将有助于取得进展,揭示一些这些复杂的相互作用,使用GWAS数据集。首先,结果显示,比较各种贝叶斯网络评分标准的性能。其目的是对候选基因座-疾病模型进行评分,以确定哪些模型最值得注意。在这种比较中,模拟数据集被认为是,其中两个SNP相互作用上位。其次,开发启发式搜索算法,从高维数据中学习复杂的相互作用是最近的一个重要研究领域。多波束搜索(MBS)算法,一个启发式的贪婪搜索的基础上逐步搜索和淘汰的原则,然后提出。这该过程旨在学习最能描述遗传变异与疾病之间联系的贝叶斯网络。这种启发式可以检测上位2-SNP相互作用。这种启发式的局限性进行了讨论。第三,全基因组上位性检测中涉及的假设检验与标准GWAS分析中涉及的假设检验有很大不同,标准GWAS分析中只考虑零假设和替代假设。由于交互模型有不同的替代模型(2-SNP,3-SNP,4-SNP......),目标是计算给定数据的此类竞争模型的后验概率。这第三个方面是通过开发BN后验概率(BNPP)来解决的。第二个方面进行了评估,使用模拟数据集。真实的数据集被用来评估第三方面。

11.1介绍

高通量基因分型技术的出现带来了确定常见疾病(如高血压、糖尿病、癌症和阿尔茨海默病)的遗传变异的希望。然而,我们对常见疾病的遗传结构的了解仍然有限;这部分是由于基因型和表型之间的复杂关系。这种复杂关系的一个可能原因是基因与基因以及基因与环境的相互作用。因此,高通量遗传数据分析的一个重要挑战是发展计算和统计方法来识别基因-基因相互作用。在本章中,我们将贝叶斯网络评分标准应用于从GWAS数据中识别基因-基因相互作用。

本章的其余部分有以下几节。第11.2节给出了上位性和GWAS相关的背景;第11.3节描述了代表上位性的贝叶斯网络模型;第11.4节描述了几个BN评分标准,并使用合成基因型数据对其进行了评估和比较;第11.5节描述了用于识别真实的GWAS数据中遗传相互作用的启发式搜索策略;第11.6节描述了如何确定一个确定的艾德遗传相互作用是否值得进一步研究。

11.2背景

11.2.1上位性

在孟德尔疾病中,单个基因座的遗传变异可能导致疾病[2]。然而,在许多常见疾病中,疾病的表现很可能是由于多个基因座的遗传变异,每个基因座赋予发展疾病的适度风险。例如,有证据表明,基因-基因相互作用可能在高血压[24]、散发性乳腺癌[30]和其他常见疾病[25]的遗传基础中发挥重要作用。两个或多个基因之间的相互作用产生一个表型,如疾病易感性,称为上位性。在生物学上,上位性很可能来自于分子水平上发生的物理相互作用。在统计学上,上位性是指多个基因座之间的相互作用,使得表型的净效应不能通过简单地组合单个基因座的效应来预测。通常,个别基因座表现出弱的边缘效应;有时他们可能没有表现出。

从基因组数据中识别上位性的能力对于理解许多常见疾病的遗传很重要。例如,研究癌症中的遗传相互作用对于我们在遗传水平上进一步理解癌症机制至关重要。众所周知,癌细胞通常是由于多个基因座的突变而发展的,其联合生物学效应导致不受控制的生长。但是许多与癌症相关的突变和突变位点之间的相互作用仍然未知。例如,BRCA 1和BRCA 2等高度渗透的癌症易感基因与乳腺癌有关[1]。

然而,只有大约5%到10%的乳腺癌可以用这些单一基因的生殖系突变来解释。“大多数有乳腺癌家族史的女性在单一的高度外显的癌症易感基因中不携带种系突变,但家族簇继续出现在每一代人中”[16]。这种现象尚未得到很好的理解,未发现的突变或突变之间未发现的相互作用可能是原因。

最常见的遗传变异是单核苷酸多态性(SNP),当通常存在于基因组序列上特定位置的核苷酸被另一个核苷酸取代时会导致这种变异。在大多数情况下,SNP是双等位基因的;也就是说,它在腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)这四种DNA核苷酸碱基中只有两种可能的值。频率较低(罕见)的等位基因必须存在于1%或更多的人群中,以使位点有资格作为SNP [4]。据估计,人类基因组含有1500万至2000万个SNP。在下文中,我们将SNP称为在寻找某些基因座与表型(如疾病易感性)的相关性时研究的基因座。

当试图从基因组数据中学习上位相互作用时,我们必须以某种方式对候选SNP模型进行评分,以确定哪些模型最值得注意。布里:SNP模型是描述SNP与疾病状态之间关系的贝叶斯网络模型;贝叶斯网络模型在第11.3节中详细描述。标准技术(如多元线性回归)可能不适用,因为预测变量和目标都是离散的。一个众所周知的技术,这是设计来解决处理离散变量的问题,是多因素的离散性减少(MDR)[13]。MDR将两个或多个变量合并为一个变量(因此导致降维);这改变了数据的表示空间,便于检测变量之间的非线性相互作用。MDR已成功应用于检测疾病中的上位相互作用,如散发性乳腺癌[30]和II型糖尿病[6]。然而,确定对候选SNP模型进行评分以识别上位性的最佳方式仍然是一个悬而未决的问题。MDR通常被称为组合方法,因为开发它的研究人员调查了分析中SNP的所有组合。

11.2.2全基因组关联研究

高通量技术的出现使全基因组关联研究(GWAS)成为可能。GWAS涉及从人群中取样的个体中约50万个代表性SNP的基因分型。一个数据集,其中的每个记录都有这么多的属性被称为高维。在病例对照GWAS中,我们用SNPs值来确定疾病状态沿着。这些研究为研究人员提供了前所未有的机会来研究疾病的复杂遗传基础。也就是说,我们可以研究每个SNP本身与疾病的关联,也可以研究SNP的组合以寻找上位性。这样的研究被称为不可知论研究,因为我们对任何特定的基因座都没有特别的先验信念。通过观察单基因座关联,研究人员已经艾德了与60种常见疾病和特征相关的150多个风险基因座[8,15,20,22,28,33]。

然而,单SNP研究不能检测复杂的上位性相互作用,其中每个位点本身表现出很少或没有边际效应。为了充分利用这些数据并可能揭示大量遗传风险的暗物质,我们使用多位点方法分析这些数据至关重要。然而,我们从这些数据的组合爆炸中得出结论。例如,如果我们仅在存在500 000个SNP时调查所有1-、2-、3-和4-SNP组合,则我们需要调查组合。因此,研究人员最近开发了启发式方法,用于指导使用GWAS数据集研究上位相互作用时的搜索[3,19,23,39]。然而,使用高维数据集成功分析上位性仍然是一个开放且重要的问题。第272页2.604×10的21次方。

这些从高维数据集中学习潜在疾病风险的机会给我们带来了另一个挑战:即,当可能有数十亿个数据集时,我们如何分析和解释我们的假设?这里涉及的假设检验与典型分析中涉及的假设检验有很大不同,在典型分析中,我们可能会分析新药的效果。在后一种情况下,我们只分析了一个假设,并且该药物具有相当高的先验有效概率,否则该研究不会被考虑。在涉及许多假设的发现研究中,每个假设都有很低的先验概率。

从历史上看,处理这种多假设检验问题的最常见策略是通过使用Bonferroni校正来限制族错误率来控制I型错误(错误发现)。例如,[28]中的结果被报道为Bonferroni校正的显着性。然而,正如[17]和11.6节开头所讨论的,邦弗罗尼校正遇到了困难,特别是在这个领域。校正的结果通常无法在研究中重复[12]。其中一个原因可能是由于这些困难。因此,从GWAS数据中学习的另一个挑战是确定一种方法来决定哪些SNP模型值得进一步研究。

总之,我们在从高维GWAS数据集学习时艾德了以下三个困难:

1确定对候选SNP模型进行评分的最佳方法,以确定哪些模型最值得注意。2开发启发式搜索算法,用于从高维数据中学习上位相互作用。3确定一种方法来决定哪些发现的SNP模型是值得进一步研究的。第11.4、11.5和11.6节介绍了我们在解决这些困难方面取得的进展。它们都使用相同的贝叶斯网络模型,我们首先描述它。

11.3贝叶斯网络模型

11.4评分候选模型

本节介绍DDAG模型的各种评分标准的评估。它是基于[18]中的结果。首先我们回顾一下这些标准

11.4.1贝叶斯网络评分标准

11.4.2实验

方法

我们评估了MDR的性能、K2评分、BDeu评分(α取其值)、Suzuki的MDL评分和AIC评分。我们使用[36]中开发的模拟数据集评估了评分标准。每个模拟数据集是从70个上位性模型中的一个开发的。每个模型代表一种概率关系,其中两个SNP一起与疾病相关,但两个SNP都不能单独预测疾病。这些关系代表了不同程度的遗传率、遗传力和次要等位基因频率。数据集的病例对照比(患病个体与未患病个体的比例)为1:1。为了创建一个数据集,[36]通过指定遗传率,遗传力和次要等位基因频率来固定遗传模型。基于该模型,生成两种上位性SNP的基因型数据,向其中添加18种不能预测疾病的另外SNP的基因型数据。对于70个模型中的每一个,生成100个数据集,提供总共7000个数据集。对于等于200、400、800和1600的数据集大小,遵循该程序。

对于每个模拟数据集,我们对所有1-SNP、2-SNP、3-SNP和4-SNP DDAG进行评分。因此,每个数据集的DDAG评分总数为6195。由于在真实的环境中,我们不知道生成数据的模型中SNP的数量,因此在学习过程中所有模型都被平等对待。

结果

我们说,如果一个方法在所有6195个模型中对代表生成模型的DDAG评分最高,则该方法正确地学习了生成数据的模型。表11.1显示了在7000个数据集中,每个BN评分标准正确学习每个样本量的生成模型的次数。在此表中,评分标准按正确性降序列出。表11 - 1显示了一些有趣的结果。首先,AIC评分在小样本量上表现得相当好,但在大样本量下其性能下降。与其他BN评分不同,AIC评分中的DAG罚分不随样本量增加而增加。第二,MDR总体表现良好,但比表现最好的评分差得多。第三,BDeu评分在中等α值时获得最佳结果。然而,对于大的α值,结果非常差,其分配非常小的DAG惩罚。

但是,具有较大值的分数在正确模型(只有两个相互作用的SNP的模型)得分最高时表现不佳,因为他们经常选择包含这些SNP的较大模型。为了研究这种可能性,我们研究了分数发现模型55-59的程度(参见[36]中的补充表1)。这些模型具有最弱的遗传力(0.01)和0.2的次要等位基因频率,因此最难检测。

表11.3显示了一组代表性评分中,正确的难以检测模型得分最高的次数。α值较大的BDeu评分的表现明显优于所有其他评分。

在所有检查的分数中,具有大α值的BDeu分数在识别困难模型方面最好;然而,当考虑所有模型时,总体上这些分数表现不佳。对这种现象的解释是,这些评分确实比α值较小的评分更能评价相互作用的SNP。当相互作用的SNP相当容易识别时,具有大α值的BDeu评分的较大DAG罚分使其相对于其他评分更难识别正确的模型。另一方面,当相互作用的SNP难以检测时,它们更好的检测能力超过补偿它们增加的DAG罚分。

11.5模型空间的搜索

正如在介绍中提到的,除了选择一个合适的评分标准的困难,第二个挑战是设计一个有效的搜索算法。特别是,在高维GWAS数据中学习上位相互作用时存在组合爆炸。因此,研究者们致力于开发启发式搜索算法。本节描述了在[19]中开发的一个这样的算法。

一种称为贪婪等价搜索(Greedy Equivalent Search,GES)的二次BN学习算法[5]将学习表示概率分布的最简洁的DAG,前提是评分标准是一致的(一致的评分标准将相同的分数分配给表示相同条件独立性的等价DAG),并且概率分布允许忠实的DAG表示并萨蒂斯组合属性。读者可参考[26]对这些假设的讨论。布里,该算法从空的达格开始,依次贪婪地将最能增加分数的边添加到达格,直到没有边增加分数。然后,按顺序,算法从DAG中删除删除使分数增加最多的边,直到没有边降低分数。

学习上位相互作用的初始策略可能是尝试通过使用GES算法搜索所有DDAG来学习相互作用的SNP。然而,更彻底的检查表明这是行不通的。假设我们在两个SNP和疾病变量D之间存在真正的上位关系,并且所有其他SNP都与D无关。因此,每个SNP本身独立于D。进一步假设,我们有一个数据集如此之大,以至于生成分布在数据集中精确地表示。在这种情况下,如果满足算法中的假设,则GES算法将学习正确的DAG。然而,在算法的第一步,所有SNP的得分都是相同的,因为它们都独立于D,它们都不会增加得分,算法将停止。

上位关系不满足GES算法成功所必需的组合属性。组成特性意味着,如果疾病同时依赖于SNP S1和S2,那么它本身必须依赖于其中至少一个。很明显,如果S1和S2相互作用而导致疾病,那么疾病本身就独立于它们中的每一个。我们可以通过使用贪婪搜索扩展每个SNP,而不是仅扩展最初增加得分最多的单个SNP,来突破上位性学习的障碍。通过这种方式,我们将详细研究每个2-SNP组合。如果发生上位性,我们将对参与上位性关系的两个SNP进行评分。一旦我们对其中的两个进行评分,我们通常也应该发现可能的第三和第四个SNP,等等。算法如下。在该算法中,score(Ai)表示具有从Ai到D中的SNP的边的模型的得分:

我们称这种算法为多波束搜索(MBS)。在最坏的情况下,它显然需要O(n的2次方)时间,其中n是SNP的数量。然而,在实践中,如果数据集很大,我们将在第一步中添加最多m个SNP,其中m是一个参数。时间复杂度为O(mn的2次方)。

如果k个SNP和D之间存在概率依赖性,但k个SNP的每个真子集独立于D,则该技术不起作用。这种情况称为纯严格上位性。MBS算法对于处理上位关系是有效的,其中我们有k个相互作用的SNP,每个SNP在概率上独立于疾病,并且疾病和至少一对相互作用的SNP之间存在一定的概率依赖性。

11.5.1实验

方法

使用第11.4.2小节开始时讨论的合成Velez数据集,我们比较了以下两种方法:(1)使用BN评分并查看所有1-SNP,2-SNP,3-SNP和4-SNP DDAG(这种方法称为BayCom);(2)使用相同的BN评分并使用MBS进行搜索,最多在第一步中添加m=4个SNP。

结果

表11 - 4显示了在所有7000个数据集上正确模型得分最高的次数。表11.5显示了运行时间。MBS在识别正确模型方面的表现与BayCom一样好,速度高达28倍。

11.6判断一个模型是否值得注意

11.6.1贝叶斯网络后验概率(BNPP)

11.6.2先验概率

11.6.3实验

表11.6显示了10个最可能的模型中的基因座。APOE的后验概率约为1,与SNP rs41377151一样。SNP rs41377151位于APOC 1基因上,该基因与APOE处于强连锁不平衡(LD),并且先前的研究表明这两个基因同样能很好地预测LOAD [34]。第三个最可能的基因座是rs1082430,位于PRKG1基因上。有许多先前的研究将该基因与LOAD相关联[10],[21]。在剩下的七个可能的位点中,有一些先前的证据将其中四个与LOAD联系起来[31]。

11.7讨论和进一步研究

参考文献

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2286942.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企业微信远程一直显示正在加载

企业微信远程一直显示正在加载 1.问题描述2.问题解决 系统:Win10 1.问题描述 某天使用企业微信给同事进行远程协助的时候,发现一直卡在正在加载的页面,如下图所示 2.问题解决 经过一番查找资料后,我发现可能是2个地方出了问题…

人工智能 - 1

深度强化学习(Deep Reinforcement Learning) 图神经网络(Graph Neural Networks, GNNs) Transformer 一种深度学习模型 大语言模型(Large Language Models, LLMs) 人工智能 • Marvin Minsky 将其定义…

Linux_线程同步生产者消费者模型

同步的相关概念 同步:在保证数据安全的前提下,让线程能够按照某种特定的顺序访问临界资源,从而有效避免饥饿问题,叫做同步竞态条件:因为时序问题,而导致程序异常,我们称之为竞态条件。 同步的…

Github 2025-01-30 Go开源项目日报 Top10

根据Github Trendings的统计,今日(2025-01-30统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Go项目10Ollama: 本地大型语言模型设置与运行 创建周期:248 天开发语言:Go协议类型:MIT LicenseStar数量:42421 个Fork数量:2724 次关注人…

【Rust自学】17.2. 使用trait对象来存储不同值的类型

喜欢的话别忘了点赞、收藏加关注哦(加关注即可阅读全文),对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 17.2.1. 需求 这篇文章以一个例子来介绍如何在Rust中使用trait对象来存储不同值的类型。 …

VLLM性能调优

1. 抢占 显存不够的时候,某些request会被抢占。其KV cache被清除,腾退给其他request,下次调度到它,重新计算KV cache。 报这条消息,说明已被抢占: WARNING 05-09 00:49:33 scheduler.py:1057 Sequence gr…

Java线程认识和Object的一些方法

本文目标: 要对Java线程有整体了解,深入认识到里面的一些方法和Object对象方法的区别。认识到Java对象的ObjectMonitor,这有助于后面的Synchronized和锁的认识。利用Synchronized wait/notify 完成一道经典的多线程题目:实现ABC…

数据库管理-第287期 Oracle DB 23.7新特性一览(20250124)

数据库管理287期 2025-01-24 数据库管理-第287期 Oracle DB 23.7新特性一览(20250124)1 AI向量搜索:算术和聚合运算2 更改Compatible至23.6.0,以使用23.6或更高版本中的新AI向量搜索功能3 Cloud Developer包4 DBMS_DEVELOPER.GET_…

【MySQL】MySQL客户端连接用 localhost和127.0.0.1的区别

# systemctl status mysqld # ss -tan | grep 3306 # mysql -V localhost与127.0.0.1的区别是什么? 相信有人会说是本地IP,曾有人说,用127.0.0.1比localhost好,可以减少一次解析。 看来这个入门问题还有人不清楚,其实…

MySQL(高级特性篇) 14 章——MySQL事务日志

事务有4种特性:原子性、一致性、隔离性和持久性 事务的隔离性由锁机制实现事务的原子性、一致性和持久性由事务的redo日志和undo日志来保证(1)REDO LOG称为重做日志,用来保证事务的持久性(2)UNDO LOG称为回…

【Block总结】HWD,小波下采样,适用分类、分割、目标检测等任务|即插即用

论文信息 Haar wavelet downsampling (HWD) 是一项针对语义分割的创新模块,旨在通过减少特征图的空间分辨率来提高深度卷积神经网络(DCNNs)的性能。该论文的主要贡献在于提出了一种新的下采样方法,能够在下采样阶段有效地减少信息…

【解决方案】MuMu模拟器移植系统进度条卡住98%无法打开

之前在Vmware虚拟机里配置了mumu模拟器,现在想要移植到宿主机中 1、虚拟机中的MuMu模拟器12-1是目标系统,对应的目录如下 C:\Program Files\Netease\MuMu Player 12\vms\MuMuPlayer-12.0-1 2、Vmware-虚拟机-设置-选项,启用共享文件夹 3、复…

力扣面试150 快乐数 循环链表找环 链表抽象 哈希

Problem: 202. 快乐数 👩‍🏫 参考题解 Code public class Solution {public int squareSum(int n) {int sum 0;while(n > 0){int digit n % 10;sum digit * digit;n / 10;}return sum;}public boolean isHappy(int n) {int slow n, fast squa…

安卓(android)实现注册界面【Android移动开发基础案例教程(第2版)黑马程序员】

一、实验目的(如果代码有错漏,可查看源码) 1.掌握LinearLayout、RelativeLayout、FrameLayout等布局的综合使用。 2.掌握ImageView、TextView、EditText、CheckBox、Button、RadioGroup、RadioButton、ListView、RecyclerView等控件在项目中的…

SpringSecurity:There is no PasswordEncoder mapped for the id “null“

文章目录 一、情景说明二、分析三、解决 一、情景说明 在整合SpringSecurity功能的时候 我先是去实现认证功能 也就是,去数据库比对用户名和密码 相关的类: UserDetailsServiceImpl implements UserDetailsService 用于SpringSecurity查询数据库 Logi…

微服务入门(go)

微服务入门(go) 和单体服务对比:里面的服务仅仅用于某个特定的业务 一、领域驱动设计(DDD) 基本概念 领域和子域 领域:有范围的界限(边界) 子域:划分的小范围 核心域…

996引擎 - NPC-动态创建NPC

996引擎 - NPC-动态创建NPC 创建脚本服务端脚本客户端脚本添加自定义音效添加音效文件修改配置参考资料有个小问题,创建NPC时没有控制朝向的参数。所以。。。自己考虑怎么找补吧。 多重影分身 创建脚本 服务端脚本 Mir200\Envir\Market_Def\test\test001-3.lua -- NPC八门名…

基于MinIO的对象存储增删改查

MinIO是一个高性能的分布式对象存储服务。Python的minio库可操作MinIO,包括创建/列出存储桶、上传/下载/删除文件及列出文件。 查看帮助信息 minio.exe --help minio.exe server --help …

观察者模式和订阅发布模式的关系

有人把观察者模式等同于发布订阅模式,也有人认为这两种模式存在差异,本质上就是调度的方法不同。 发布订阅模式: 观察者模式: 相比较,发布订阅将发布者和观察者之间解耦。(发布订阅有调度中心处理)

(2025 年最新)MacOS Redis Desktop Manager中文版下载,附详细图文

MacOS Redis Desktop Manager中文版下载 大家好,今天给大家带来一款非常实用的 Redis 可视化工具——Redis Desktop Manager(简称 RDM)。相信很多开发者都用过 Redis 数据库,但如果你想要更高效、更方便地管理 Redis 数据&#x…