论文阅读(七):贝叶斯因果表型网络解释遗传变异和生物学知识

news2025/1/31 18:45:18

1.论文链接:Bayesian Causal Phenotype Network Incorporating Genetic Variation and Biological Knowledge

摘要:

在分离群体中,数量性状基因座(QTL)定位可以确定对表型有因果效应的QTL。这些方法的一个共同特点是QTL定位和表型网络重建是分开进行的。由于这两个任务必须相互贝内,本章提出了一种方法,联合推断因果表型网络和因果QTL。因果表型关系和因果QTL的联合网络被建模为贝叶斯网络。此外,表型网络结构的先验分布调整的生物知识,从而扩展了以前的框架,QTLnet,QTLnet-prior。这种整合的方法可以结合生物学知识的几个来源,如蛋白质-蛋白质相互作用,基因本体注释,转录因子和DNA结合信息。描述了在接受网络结构和接受对应于k种类型的生物知识的k个权重之间迭代的Metropolis-Hastings方案。

关键词:QTL,贝叶斯网络,因果表型

在分离群体中,数量性状基因座(QTL)定位可以确定对表型有因果效应的QTL。文献中的几种方法利用通过QTL作图鉴定的艾德QTL来确定表型之间的因果关系。这些方法的一个共同特点是QTL定位和表型网络重建是分开进行的。由于这两个任务必须相互贝内,本章提出了一种方法,联合推断因果表型网络和因果QTL。因果表型关系和因果QTL的联合网络被建模为贝叶斯网络。此外,表型网络结构的先验分布由生物学知识调整。这种整合的方法可以结合几个生物学知识的来源,如蛋白质-蛋白质相互作用,基因本体论注释,转录因子和DNA结合信息。这个框架允许通过先验知识对各种知识来源的可信度进行灵活的调整。生物知识权重描述了在接受网络结构和接受对应于k种类型的生物知识的k个权重之间迭代的Metropolis-Hastings方案。在蛋白质-蛋白质相互作用的情况下,描述了编码生物学知识的方式,从基因本体论衍生的基于相似性的措施,以及转录因子与DNA的结合。整合的方法,然后应用于重建一个网络参与酵母细胞周期,依赖于转录因子结合的知识。

7.1介绍

分子生物学的一个关键兴趣是了解DNA,RNA,蛋白质和代谢产物如何相互调节。在这方面,人们已经考虑从具有时间序列测量或转录扰动的微阵列表达数据构建调控网络[14,15]。也可以在基因型干扰基因表达、蛋白质和代谢物水平的分离群体中构建调控网络。遗传变异信息可以解释性状的遗传效应,并有助于发现表型之间的因果调节关系。此外,在各种生物数据库中可以获得调控关系的知识,这可以改善因果网络的重建。本章的重点是结合遗传变异在一个隔离的人口和生物学知识,以改善因果网络的推理。

鉴于基因表达表型的数量性质,人们可以进行数量性状基因座(QTL)定位以检测影响表型的基因组位置[29]。一个位置的基因型通常编码为AA、Aa或aa,其中等位基因A和a是遗传基因座的不同变体形式。定量表型/性状是生物体的任何可观察到的物理或生化定量特征,例如体重、血压、基因表达或蛋白质水平。QTL定位的基本思想是检测基因组区域或QTL,其中基因型的变异与表型的数量变异相关。例如,高的父母倾向于有高的孩子,而矮的父母倾向于有矮的孩子。因此,可能存在与株高相关的遗传因子,这些遗传因子可以通过QTL定位进行艾德分析。在基因型随机分配的实验群体中,QTL的遗传变异可以解释为引起感兴趣的表型的后期变化。

在分离群体中,QTL定位可以确定对表型有因果效应的QTL。该因果效应可以是直接从QTL到表型的,也可以是通过其他中间表型间接的。我们只将直接QTL标记为“因果QTL”,认识到它们比间接QTL对表型的影响更近。我们也承认,在QTL和表型之间的通路中可能有许多其他的分子因子在特定的研究中没有测量。间接和直接QTL可用于帮助确定因果表型网络中边的方向(即,由表型节点组成的有向图,其边表示因果关系)。文献中的几种方法利用QTL定位艾德的QTL来确定表型之间的因果关系,包括:结构方程模型[2,34,35]贝叶斯网络的基于分数的方法[56,60,62];基于独立性检验的贝叶斯网络因果算法[8,53];和对表型对的因果关系检验[10,11,32,38,48]。上述方法的一个共同特点是QTL定位和表型网络重建分别进行。不考虑表型网络的QTL定位可能会发现间接QTL。正如[9]所指出的,不正确或间接的QTL可能会影响表型间因果关系的推断。为了解决这个问题,一些研究人员[9,20]提出联合推断因果表型网络和因果QTL。

在表型网络的重建中,各种生物学知识的来源已经与基因表达结合起来,因为使用仅基因表达来确定基因调控的因果方向是困难的。转录因子结合信息被[52]利用,而[40]使用蛋白质-蛋白质相互作用知识构建表型网络。[25]、[55]和[12]提出了整合多种生物学知识的方法。

在本章中,我们提出了一种贝叶斯方法来联合推断因果表型网络和因果QTL,其中表型网络结构的先验分布由生物学知识调整。因果表型关系和因果QTLs的联合网络被建模为贝叶斯网络,其采用了[9],QTLnet。在表型网络的条件下,可以通过QTL定位推断出因果QTL。由于表型网络是未知的,QTLnet遍历表型网络的空间,并使用马尔可夫链蒙特卡洛(MCMC)更新因果QTL。我们通过将生物学知识引入表型网络结构的先验分布来扩展QTLnet的框架。生物学知识的结合有望提高模型估计的准确性,从而增强网络的预测能力[62]。表型网络结构的先验概率是基于吉布斯分布来整合不同来源的生物信息,允许分析师对这一知识的信心进行灵活的调整[55]。由于生物学知识可能是不完整和不准确的,因此考虑生物学知识的可靠性是必要的。虽然[62]提出了一种将遗传变异和生物学知识整合到表型网络中的方法,但他们的方法没有考虑生物学知识的可靠性。我们提出的方法(QTLnet-prior)可以整合表型数据、遗传变异和多种生物学知识源(蛋白质-蛋白质相互作用、基因本体注释、转录因子和DNA结合信息),并在网络重构算法中考虑每种生物学知识源的可靠性。

我们用于因果表型网络和因果QTL的联合推断的集成框架的细节组织如下。第7.2节描述了用于因果网络和因果QTL联合推断的QTLnet方法。第7.3节介绍了拟议的QTLnet-prior,它将生物学知识纳入表型网络结构的先验概率分布。在第7.4节中进行了模拟研究,以比较所提出的方法与几种现有的方法。在第7.5节中,所提出的方法用于重建参与酵母细胞周期的26个基因的网络。最后,在第7.6节中,我们讨论了我们的方法的优点和注意事项,并指出了未来的研究方向。

7.2因果表型网络与因果QTL的联合推断

在第7.2.1小节中,我们首先介绍了一个用于建模表型数据的标准贝叶斯网络。接下来,在7.2.2小节中,我们提出了一个扩展模型QTLnet,它基于齐次条件高斯回归(HCGR)模型,将QTL节点纳入表型网络。标准贝叶斯网络中的有向边可以解释为因果关系。通过扩展具有因果QTL节点的表型网络,我们可以进一步主张因果解释。在7.2.3小节中,我们提出了因果表型网络和因果QTL联合推断的基本原理,在7.2.4小节中,我们描述了以表型网络为条件的QTL定位。最后,我们在第7.2.5小节中概述了表型网络和因果QTL推断的联合方法。

7.2.1标准贝叶斯网络模型

7.2.2 HCGR模型

联合建模表型和QTL基因型的贝叶斯网络的参数族对应于HCGR模型。在QTL基因型和协变量的条件下,表型根据多变量正态分布进行分布,其中QTL和协变量通过平均值进入模型,表型之间的相关结构根据表示表型网络结构的DAG明确建模[9]。图7.1描述了表型和QTL基因型的联合贝叶斯网络的一个例子。

7.2.3系统遗传学和因果推理

系统遗传学旨在从大规模的基因型和表型数据中了解遗传变异和表型之间复杂的相互关系[39]。在这里,我们解释如何系统遗传学方法可以推断因果网络。QTL与表型的因果关系是由基因型对表型的单向影响和基因型对个体的随机分配艾德的。相反,表型之间的因果关系是从条件独立性中推导出来的。系统遗传学的关键思想是,通过将QTL节点纳入表型网络,我们创建了一组新的条件独立关系,用于区分网络结构,否则,属于同一等价类(见表7.1和7.2)。

首先,我们对QTL与表型之间的因果关系进行了较为详细的描述。正如分子生物学中心法则所述,遗传DNA信息被转移到表型。因此,基因型一般影响表型,而不是相反。一个基因型被认为是随机的其他环境因素的独立分离的染色体在减数分裂和随机交配配子之间。这些特殊的特征使我们能够推断QTL对表型的因果效应,因为通过与随机实验类比,我们有:(1)对实验单位的处理(基因型)先于测量结果(表型),(2)对实验单位的随机分配处理保证了其他常见原因的平均值。同一条染色体上的两个基因座在距离较小时高度相关。但是两个基因座之间的交叉仍然可以随机发生,与距离成比例。可以在大样本量下区分真的因果QTL和假的邻近QTL。这种随机分配在回交或互交等实验杂交中是明确的。虽然这一概念可以扩展到自然种群,但必须特别注意混合、亲属关系和其他形式的亲缘关系。

第二,解释表型间的因果推理需要由表型和QTL节点组成的DAG中的条件独立性概念。在接下来的三个段落中,我们提出了一些定义和结果,使我们能够推断表型与表型的因果关系。

现在我们陈述关于系统遗传学中因果推理的四个重要结果:(1)两个DAG是马尔可夫等价的当且仅当它们具有相同的骨架和相同的v-结构集[54];(2)分布等价意味着马尔可夫等价,但匡威不一定是真的[50];(3)对于高斯回归模型,马尔可夫等价意味着分布等价[21];(4)对于齐次条件高斯回归模型,马尔可夫等价蕴含分布等价[9]。

因此,对于HCGR参数族,两个DAG是分布和似然等价的,当且仅当它们是马尔可夫等价的。这意味着我们可以简单地检查任何两个DAG是否具有相同的骨架和相同的v结构集,以确定它们是否是似然等价的,因此不能使用数据进行区分。

7.2.4表型网络结构条件下的QTL定位

注意,如[9]中所指出的,条件LOD得分可以被采用作为表型和QTL之间独立性的正式度量。尽管我们将注意力限制在HCGR模型上,但条件LOD分析是检测连续和离散随机变量之间条件独立性的通用框架。与偏相关相反,条件LOD评分不需要假设数据的多正态性以正式检验独立性,并且它可以通过协变量相互作用来处理QTL。

7.2.5表型网络和因果QTL的联合推断

7.3表征生物学知识的因果表型网络

除了基因型QTL外,生物学知识也是促进表型网络构建的重要信息来源。这些知识可以整合在因果网络之上,以提供基因如何调控的更全面的图景。这种整合的网络可以产生一个新的基因调控假说,与生物学知识具有整体一致性。

在本节中,我们提出了一个网络推理方法,QTLnet-prior,从表型数据与遗传变异,整合生物学知识。QTLnet-prior扩展了第7.2.5小节末尾提到的QTLnet框架。它指定了表型网络结构的先验概率,以整合多个生物学知识来源,并根据知识的可靠性灵活调整参数[55]。生物学知识的加权集成可以产生更具预测性的贝叶斯网络。我们的扩展框架QTLnet-prior的细节在7.3.1小节中介绍。在第7.3.2小节中,我们概述了用于QTLnet先验实现的Metropolis-Hastings MCMC方案,该方案集成了网络结构的采样[19,37],QTL作图和生物知识权重的采样。在7.3.3小节中,我们介绍了如何将生物学知识编码到表型网络结构的先验分布中。

7.3.1模型

扩展模型

表型网络结构

生物学知识权重

引入权值参数控制生物学知识对表型网络的影响。更高的权重值会增加生物知识对网络后验分布的影响。特别地,大的W使表型网络结构与生物学知识B一致的先验概率显著增加。相反,一个小的W会使所有可能的网络的先验概率相当相等。如果生物知识B与生成表达数据的真实网络相似,则后验概率将在高W处达到峰值。相反,如果生物学知识与真实网络有很大的偏差,则后验概率将在小W处达到峰值。这是因为W越小,偏差网络和真实网络的先验概率之比越小。因此,真实网络的后验可以大于偏离网络的后验,这是由于在较小的W下似然比克服了先验比。

因果QTL的先验

在没有任何关于因果QTL的具体信息的情况下,我们将因果QTL的先验设置为均匀分布。在贝叶斯QTL作图中可以找到几个替代的物种,如[59]和[58]。

7.3.2 MCMC示意图

7.3.3生物学知识编码概述

7.4模拟

我们进行了一项模拟研究,将所提出的方法(QTLnet-prior)与其他三种方法进行比较:QTLnet [9],WH-prior [55]和Expression。表7.3提供了这四种方法在使用遗传变异信息和生物学知识方面的总结。QTLnet使用R/QTLnet实现,QTLnet-prior使用R/QTLnet上的先验设置实现,WH-prior如[55]中所述进行编程,修改为使用BIC评分而不是使用BGe评分近似边缘可能性[17]。通过修改R/QTLnet以排除QTL作图来编程表达。

7.5酵母细胞周期基因分析

7.6结论

我们已经开发了一个表型网络推理方法(QTLnet-prior),将遗传变异信息和生物学知识。已知基因型控制表型,而不是相反,因此可以帮助区分表型网络结构。生物学知识可以改善表型之间的聚类和方向性推理。仿真研究表明,在知识与数据一致的前提下,该方法能有效地融合遗传变异信息和生物学知识,提高基因网络的重构效率。当生物知识与数据不一致时,知识的权重控制了生物知识先验概率对数据似然的贡献,在一定程度上降低了缺陷知识的负面影响。我们应用QTLnet-prior通过整合转录因子结合信息来估计具有因果QTL的26个基因的酵母细胞周期网络,并将其性能与QTLnet进行比较。权重的分布表明转录因子结合信息与表达数据不一致。尽管如此,与QTLnet的输出比较显示出相当相似的结果,这表明知识的权重参数在这种情况下有效地控制了不一致知识的负面影响。

当我们解释推断出的网络时,我们需要谨慎。尽管在理论上,引入因果QTL使我们能够区分网络结构,否则可能是等效的,但在实践中,一些检测到的表达间因果关系可能是无效的。可能的解释是,推断的表达网络代表了可能发生在转录调控水平之外的真实的因果关系的投影。例如,真正的因果调节可能是由于转录因子结合,直接蛋白质-蛋白质相互作用,磷酸化,甲基化等,并且可能无法在基因表达水平上得到很好的反映。结合从不同水平的生物调节中挖掘的不同生物学知识,可以潜在地改善基因表达调节网络的重建。在任何情况下,这些网络的推理仍然可以在产生假设可能的因果关系方面发挥重要作用。

有几个因素可以改变QTLnet先验推断。一个是先验分布规范.根据方程(7.4)中的绝对距离测量,我们已经使用吉布斯分布作为方程(7.5)中的网络结构的先验分布,以结合生物学知识。在方程(7.6)中,生物学知识的权重采用指数分布,并采用率参数(见7.3.1小节)。然而,我们可以考虑不同的网络结构分布、信息整合测度、权重分布和超参数的选择。另一个因素是表达式数据的样本大小。随着样本量的增加,生物学知识的贡献将普遍减少。这表明,生物学知识对网络重构的贡献有限,尽管生物学知识B也可以从大量实验中获得,如[55]中所讨论的。第三个因素是生物知识对网络重构的全局控制。通过酵母细胞周期网络可以看出,每个转录因子/靶调控都由相同的权重参数控制。它可能没有导致任何生物学知识的贡献,即使转录因子/靶向调控被推断为与表达数据一致。这意味着在重构网络时通过局部控制参数来结合生物学知识。最后,生物学知识的编码也起着重要角色。我们已经提出使用来自[4]的转录因子及其靶的编码、来自[28]的蛋白质-蛋白质相互作用、以及来自[36]的基因本体注释。这些编码主要是关于在单独的生物调节水平上的直接关系。如前一段所讨论的,这种被丢弃的生物学知识可以改进贝叶斯网络的重构。

贝叶斯网络分析中的一个持续挑战是如何科普大型网络,因为DAG空间大小随着节点数量的超指数增长。已经提出了基于马尔可夫毯的方法,对父节点的数量有限制和没有限制[45,47,49]。在[27]中,作者将贝叶斯网络问题近似为线性规划问题。在[51]中,作者开发了一种并行算法,该算法推断限制在马尔可夫毯上的子网络并合并子网络。类似地,在遗传估计中,已经研究了从小树重建超树[5]。我们认为,严格发展的超级贝叶斯网络方法,以整合小型子网络是一个有前途的方向推理的大型网络,因为推理的小型子网络是计算成本低,多个子网络可以并行计算。在这个生物学数据和各方面知识丰富的时代,大规模地合理整合它们可能是未来研究的一个有趣课题。

参考文献

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2288029.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

1.27补题 回训练营

E 智乃的小球 题目描述 在一条无限长的水平直线上,有 n 个小球,每个小球的质量相同,体积可以忽略不计。这些小球初始时位于直线上的不同位置,并且每个小球有一个初始速度,速度为 -1 m/s 或 1 m/s。速度为 -1 m/s 表示…

INCOSE需求编写指南-附录 B: 首字母缩略词和缩写

附录 Appendix B: 首字母缩略词和缩写ACRONYMS AND ABBREVIATIONS AD 难易程度的进阶 Advancement Degree of Difficulty AI 人工智能 Artificial Intelligence CM 配置管理 Configuration Management ConOps 运作理念 Concept of Operations COTS 商业现货 Comme…

B站吴恩达机器学习笔记

机器学习视频地址: 4.5 线性回归中的梯度下降_哔哩哔哩_bilibili 损失函数学习地址: 损失函数选择 选凸函数的话,会收敛到全局最小值。证明凸函数用Hessian矩阵。凸函数定义:两点连线比线上所有点都大。 batch理解&#xff1…

Vscode编辑器下 Markdown无法显示图片

1.问题 在vscode 编辑器中无法预览 markdon 文件中的图片 2.解决方案 大部分出现这种情况是因为新版本的vscode会阻拦有风险的资源显示,将安全等级调低即可。 方式一: 1.打开任意 MD 文件,ctrl,调出设置 2. 输入 markdown.ch…

mysql重学(一)mysql语句执行流程

思考 一条查询语句如何执行?mysql语句中若列不存在,则在哪个阶段报错一条更新语句如何执行?redolog和binlog的区别?为什么要引入WAL什么是Changbuf?如何工作写缓冲一定好吗?什么情况会引发刷脏页删除语句会…

国产650V碳化硅MOSFET在通信电源应用中全面取代超结MOSFET

在通信电源应用中,国产650V碳化硅(SiC)MOSFET全面取代超结MOSFET(如硅基CoolMOS),是技术迭代、政策推动、市场需求和国产产业链成熟共同作用的结果。倾佳电子杨茜从以下多个维度解析这一趋势: 倾…

【ComfyUI专栏】通过软件获取PNG图片中的工作流信息

自从AI生成图片技术发展之后,你会发现很有意思的情况就是所有的图片中开始包含利用AI生成的工作流。有的时候你直接将图片拖到ComfyUI来获取图片中的工作流。下面的图片中的信息很意外的没有包含工作流,但那时我们可以看到的Parameters里面包含了设置之外,也有工作流节点内容…

《LLM大语言模型+RAG实战+Langchain+ChatGLM-4+Transformer》

文章目录 Langchain的定义Langchain的组成三个核心组件实现整个核心组成部分 为什么要使用LangchainLangchain的底层原理Langchain实战操作LangSmithLangChain调用LLM安装openAI库-国内镜像源代码运行结果小结 使用Langchain的提示模板部署Langchain程序安装langserve代码请求格…

进程控制的学习

目录 1.进程创建 1.1 fork函数 1.2 fork函数返回值 1.3 写时拷贝 1.4 fork 常规用法 1.5 fork 调用失败的原因 2. 进程终止 2.1 进程退出场景 2.2 进程常见退出方法 2.2.1 从main 返回 2.2.2 echo $? 查看进程退出码 2.2.2.1 我们如何得到退出码代表的含…

Formality:时序变换(二)(不可读寄存器移除)

相关阅读 Formalityhttps://blog.csdn.net/weixin_45791458/category_12841971.html?spm1001.2014.3001.5482 一、引言 时序变换在Design Compiler的首次综合和增量综合中都可能发生,它们包括:时钟门控(Clock Gating)、寄存器合并(Register Merging)、…

前端实战:小程序搭建商品购物全流程

目录 项目概述 开发环境搭建 微信开发者工具下载与安装 项目创建流程 项目目录结构及各文件作用 商品展示页面开发 页面布局(WXML 与 WXSS) 数据获取与绑定(JavaScript) 加入购物车功能实现 购物车功能开发 购物车页面布…

Python中的函数(下)

函数返回值 返回单个值 函数可以通过 return 语句返回一个值。一旦执行到 return 语句,函数就会停止执行,并将指定的值返回给调用者。例如: 返回多个值 实际上,Python函数只能返回一个值,但可以通过返回一个元组来模…

探索AI(chatgpt、文心一言、kimi等)提示词的奥秘

大家好,我是老六哥,我正在共享使用AI提高工作效率的技巧。欢迎关注我,共同提高使用AI的技能,让AI成功你的个人助理。 "AI提示词究竟是什么?" 这是许多初学者在接触AI时的共同疑问。 "我阅读了大量关于…

Linux运维之Linux的安装和配置

目录 Linux的基本概念: 1.为什么要使用Linux? 2.什么是Linux? Linux的安装和配置: 1.下载Linux的虚拟机和镜像文件: 1.1下载虚拟机 1.2下载镜像文件 2.在虚拟机或者物理机中安装Linux操作系统 3.配置虚拟机的…

【深度分析】微软全球裁员计划不影响印度地区,将继续增加当地就业机会

当微软的裁员刀锋掠过全球办公室时,班加罗尔的键盘声却愈发密集——这场资本迁徙背后,藏着数字殖民时代最锋利的生存法则。 表面是跨国公司的区域战略调整,实则是全球人才市场的地壳运动。微软一边在硅谷裁撤年薪20万美金的高级工程师&#x…

联想Y7000+RTX4060+i7+Ubuntu22.04运行DeepSeek开源多模态大模型Janus-Pro-1B+本地部署

直接上手搓了: conda create -n myenv python3.10 -ygit clone https://github.com/deepseek-ai/Janus.gitcd Januspip install -e .pip install webencodings beautifulsoup4 tinycss2pip install -e .[gradio]pip install pexpect>4.3python demo/app_januspr…

【MQ】探索 Kafka

高性能 消息的顺序性、顺序写磁盘 零拷贝 RocketMQ内部主要是使用基于mmap实现的零拷贝,用来读写文件 减少cpu的拷贝次数和上下文切换次数,实现文件的高效读写操作 Kafka 零拷贝 Kafka 使用到了 mmap 和 sendfile 的方式来实现零拷贝。分别对应 Jav…

指针(C语言)从0到1掌握指针,为后续学习c++打下基础

目录 一,指针 二,内存地址和指针 1,什么是内存地址 2,指针在不同系统下所占内存 三,指针的声明和初始化以及类型 1,指针的声明 2,指针 的初始化 1, 初始化方式优点及适用场景 4,指针的声明初始化类型…

项目开发实践——基于SpringBoot+Vue3实现的在线考试系统(九)(完结篇)

文章目录 一、成绩查询模块实现1、学生成绩查询功能实现1.1 页面设计1.2 前端页面实现1.3 后端功能实现2、成绩分段查询功能实现2.1 页面设计2.2 前端页面实现2.3 后端功能实现二、试卷练习模块实现三、我的分数模块实现1、 页面设计2、 前端页面实现3、 后端功能实现四、交流区…

AI DeepSeek-R1 Windos 10 环境搭建

1、安装: 下载 Python |Python.org CUDA Drivers for MAC Archive | NVIDIA pip 和virtualenv Download Ollama on Windows 如下图 2、下载模型 deepseek-r1 ollama run deepseek-r1 或者可以ollama run deepseek-r1:8b 或 3、安装一个可视化对话Chatbox 下载 …