先前给大家分享了一篇 Nature Medince 的年龄相关建模文章,阅读量蛮高,大家也都十分感兴趣。这个领域的生信研究确实会有一些特色,一些高分模型研究或多或少都偏向于模型的可解释性。
▲ Nature Medicine | 常规机器学习构建蛋白质组衰老时钟!对于数学基础不好的同学,好好思考一下这种研究模式如何借鉴?_proteomic aging clock predicts mortality and risk -CSDN博客
择日不如撞日,今天便再给各位老铁们分享一篇于2024年09月03号发表在 Nature Aging [17.0] 的纯生信建模文章:"Loss of coordination between basic cellular processes in human aging",人类衰老过程中基本细胞通路之间失去协调。
DOI:10.1038/s43587-024-00696-y
| 所用数据
-
GTEx数据集(Genotype-Tissue Expression):来自30种不同人类组织的RNA测序数据,包括大脑、心脏、肝脏、肺、肌肉等,涵盖了948名年龄在20岁到79岁之间的捐赠者。
-
PBMC数据集(China Kadoorie Biobank):来自982名人类供体的外周血单个核细胞 (PBMC) 单细胞RNA测序数据。
-
两项研究的癌症细胞系数据集:总共包含 1,443 个癌症细胞系采集的转录组数据。
| 摘要
背景:据报道,不同类型的细胞都存在与年龄相关的基因表达失调现象(体现在各种年龄相关通路的变化上),这可能会导致细胞功能受损。尤其需要注意,作者在这里提出了三个待解决的问题:①虽然已经鉴定了很多年龄相关的失调通路,但是衰老对于这些通路中每一个通路的影响,特别是衰老对于多个通路之间协调的影响仍然还是一个未解之谜;②在不同的细胞中,与年龄相关的基因表达失调有多普遍。已有文献证实,单个基因在某些细胞类型中的表达水平的变异性与年龄有关,而在其他细胞类型中则没有。③同时,不能仅仅使用表达的差异来衡量一个基因是否与年龄有关;相反,变异性也可能是由于细胞对可变的外部刺激做出了协调反应。基因表达的协调性在多大程度上会随着年龄的增长而受损,这仍然是一个未决问题。(可以看出来,这篇文章其实是在强调协调性,这种协调性可以是通路内部的,也可以是不同通路之间的。而载体,也就是如何评估通路内部的相关性、通路之间的相关性,则是由基因之间的表达量相关性确定的)。
方法与结果:在这里,作者根据从外部癌症数据中学习到的基因-基因网络模型(其实只是多个lasso回归),提出了一种量化基因间转录调控关系(协调性)的年龄相关变化方法。使用GTEX数据集,作者通过开发的方法揭示了八个人体组织内基因-基因关系中与年龄相关的趋势,这表明基因共表达的减少也可能是协调转录反应的结果。作者的分析表明,随着年龄的增长,基因与基因之间关系增强和减弱的数量相似,既影响组织的特异性(例如血液中的凝血功能),也影响普遍存在的生物通路。随年龄增长而减弱的调控关系主要是在通路之间的基因之间建立的。与此相反,随年龄增长而变强的调控关系既存在于不同通路内部,也存在于不同通路之间。
结论:虽然大多数转录调控基因与基因之间的关系在衰老过程中得以维持,但那些调控耦合性下降的基因主要是由于不同通路之间失去了协调。看不懂没关系,最后的结论其实就是,衰老过程中不同信号途径之间的协调出了问题(这里就要想了,如何评估可协调性)。
| 研究思路
1. 使用转录组数据分析基因-基因之间的协调关系
▲ 图1:不同年龄分组、组织之间指定通路中基因间相关情况,以及基于LASSO构建的网络模型重构基因表达。
-
a. 作者在基因本体 (Gene Ontology,GO)条目中挑选了五组基因集,这些基因既包括细胞类型特异的(如抗原结合,antigen binding) ,也包括每种细胞都有的 (如线粒体呼吸链,mitochondrial respiratory chain),还包括外部的调控类型 (如细胞外基质成分,ECM components) 和蛋白复合物 (如聚合酶 II 核心复合物,Pol-II core complex) 。随后他们使用 GTEX 数据,在不同的组织上,分别计算了年轻 (young, 20-29 岁) 或年老 (old, 60-69 岁) 的分组样本中,上述五个通路中基因与基因 (基因对) 的皮尔逊相关性。重点分析了两种细胞组成和功能存在差异的组织脑和血液,也将所有组织的数据汇总在一起。从图中可以看到,同一个功能(基因集)内部的基因存在相关性。不仅如此,不同的功能之间也存在协调关联,尤其是线粒体呼吸链和 RNA Pol-II 核心复合体的编码基因之间的相关性。值得注意的是,作者还观察到与年龄有关的基因共表达差异,既有个别组织特有的,也有跨组织共有的。这个地方还是有些复杂的,给各位老铁举三个例子:①存在多对基因只在某个组织(比如肺)里面具有表达相关性(组织特异性);②也存在多对基因只在老年人身上有表达相关性(年龄特异性);③这些相关的基因对之中,有些基因对可能是同一个通路的,也有可能是不同通路的。所以说,这里作者不仅仅看常规的相关性,也看相关性在不同组织、不同年龄分组的变化。是一个借鉴的点,大家常规都做表达的差异,但如果你做基因对相关性的差异,那不是得领先一个版本。同时,基因对中的两个基因可能是一个通路的,也可能是来自于不同通路,一下子就多了好多可以分析的东西。这个图a的热图最右边两张是reconstructed(重构)的表达,老铁们留意一下,也是一个关键点(等会说)。
-
b. 年轻 (不透明颜色)和年老 (透明颜色)样本中不同通路内部 (彩色)和通路之间 (米色)相关性的量化差异,同样分成了原始表达和重构表达两张图。
-
c. 作者在文章中表示,两个基因之间的关系过于简单。如图所示,对于一个基因比如基因a,如果存在多个基因能够预测这个基因a的表达(图中是基因b与基因c),那么这种关系比简单的两个基因共表达更能反映协调表达的功能要求 (此外,基因b和c可能来自与基因a相同或是不同的通路,所以或多或少体现了通路内或通路间的协调关系)。具体而言,建模方法选择的是lasso,数据则是使用了来自两项研究的癌症细胞系数据。也就是说,对于每个基因,都有一个模型用于预测它的表达,模型的输入则是其他基因的表达。每个模型使用的基因以及其数量是不同的,但通过癌症细胞系数据进行训练,获得了最优的基因组合和相应的权重。这个模型就像个网络一样,所以作者称之为网络模型,但实际上就是多个lasso模型而已。同时,前面图表提到的reconstructed(重构)的表达其实就是用这些训练好的lasso模型重新在年龄数据集上计算了每个基因的表达量。所以前面几张重构对应的图表其实也是验证,表明模型学习到了年龄、组织分组中基因之间的协调关系。
2. 评估与年龄有关的基因表达协调变化
▲ 图2:通过模型评估整个转录组的可预测性,及其在各组织中随年龄的变化。
-
a. 接下来,作者系统地研究了人体组织中整个转录组基因调控程序的变化。为了定义这种基因调控程序的评价指标,也就是前面提到的通路内基因、通路间基因协调性,作者利用了刚才基于lasso建立的网络模型。具体解释一下,网络模型由多组基因-基因关系的lasso模型组成,这些关系在多种多样的细胞状态下都是不变的(已经被作者证明了)。因此,作者认为这种基因表达协调的变化会改变我们的网络模型正确预测基因表达的能力。只要基因的调控与模型学习到的结构 "一致",它就可以预测,而偏离模型结构的调控输入则会降低它的可预测性。换句话说,如果某些网络模型无法预测相应的基因表达,这可不是模型的问题,而是该基因在机体的协调性出了问题(该基因与其他基因不相关了,所以也预测不出来了)。这种协调性具体的量化方式如a中上面两张小图所示,计算观察到的表达模式(原始数据中,横坐标)与模型预测的表达模式(重建数据中,纵坐标)之间的斯皮尔曼相关性,相关性高(左图)则表明协调性正常,相关性低(右图图)表示协调性异常,作者又把这个相关性称作可预测性得分。下面那张图将年龄分成了多个小组,展示了随年龄升高协调性(可预测性)的三种变化,对于一个基因,其在年龄的升高中协调性可能没有发生变化、或者降低、也有可能升高。可以说,通过对于lasso模型的可解释性分析,作者设计了一种评价基因协调性变化的关系。这种研究模式可以说对所有的疾病都是可以套用的,比如在肿瘤与癌旁中基因协调性的变化。
-
b. 可预测性的p值分布(回归是具有p值的)。红线:计算得到的p值分布;灰色背景:100 个年龄组的平均 P 值分布;黑线:从背景中随机抽取的五个组;垂直虚线表示在每个组织中被认为具有统计学意义的基因中最高的 P 值。
-
c. 热图展示了所有基因(370 个)的可预测性斜率热图。
-
d. 显著富集年龄相关基因-基因关系变化(可预测性的变化)的标志基因集; 热图显示了至少在一个组织中具有统计学显著性(FDR < 0.05)富集的所有标志基因。
-
e.每个组织前 100 个最显著基因中可预测性增加(蓝色)和减少(橙色)的基因数。
后面还有两张组图就不放了
一张分析的是影响基因可预测性的因素
另一张则是分析通路内、通路间基因的可预测性变化趋势
最后发现这些协调性下降的基因都是不同通路间的
于是得出了开头的结论
推荐各位也去仔细阅读一下
可以说这篇文章思路确实领先
①基因相关性对的变化
②回归模型替代相关性对
③基于模型的解释提供协调性的评估方案
④影响协调性的潜在因素
⑤协调性变化基因对中,通路内、通路间的关联模式
欢迎各位老哥老姐关注
就分享到这了