Nature Aging | 还在做差异分析吗?相关性+常规机器学习模型,这篇顶刊纯生信的研究思路可以说领先了一个版本!

news2024/12/23 3:36:14

先前给大家分享了一篇 Nature Medince 的年龄相关建模文章,阅读量蛮高,大家也都十分感兴趣。这个领域的生信研究确实会有一些特色,一些高分模型研究或多或少都偏向于模型的可解释性。

图片

▲ Nature Medicine | 常规机器学习构建蛋白质组衰老时钟!对于数学基础不好的同学,好好思考一下这种研究模式如何借鉴?_proteomic aging clock predicts mortality and risk -CSDN博客

择日不如撞日,今天便再给各位老铁们分享一篇于2024年09月03号发表在 Nature Aging [17.0] 的纯生信建模文章:"Loss of coordination between basic cellular processes in human aging",人类衰老过程中基本细胞通路之间失去协调。

图片

DOI:10.1038/s43587-024-00696-y

所用数据

  • GTEx数据集(Genotype-Tissue Expression):来自30种不同人类组织的RNA测序数据,包括大脑、心脏、肝脏、肺、肌肉等,涵盖了948名年龄在20岁到79岁之间的捐赠者。

  • PBMC数据集(China Kadoorie Biobank):来自982名人类供体的外周血单个核细胞 (PBMC) 单细胞RNA测序数据。

  • 两项研究的癌症细胞系数据集:总共包含 1,443 个癌症细胞系采集的转录组数据。

摘要

背景据报道,不同类型的细胞都存在与年龄相关的基因表达失调现象(体现在各种年龄相关通路的变化上),这可能会导致细胞功能受损。尤其需要注意,作者在这里提出了三个待解决的问题虽然已经鉴定了很多年龄相关的失调通路,但是衰老对于这些通路中每一个通路的影响,特别是衰老对于多个通路之间协调的影响仍然还是一个未解之谜在不同的细胞中,与年龄相关的基因表达失调有多普遍。已有文献证实,单个基因在某些细胞类型中的表达水平的变异性与年龄有关,而在其他细胞类型中则没有。同时,不能仅仅使用表达的差异来衡量一个基因是否与年龄有关;相反,变异性也可能是由于细胞对可变的外部刺激做出了协调反应基因表达的协调性在多大程度上会随着年龄的增长而受损,这仍然是一个未决问题。可以看出来,这篇文章其实是在强调协调性,这种协调性可以是通路内部的,也可以是不同通路之间的。而载体,也就是如何评估通路内部的相关性、通路之间的相关性,则是由基因之间的表达量相关性确定的)。

方法与结果:在这里,作者根据从外部癌症数据中学习到的基因-基因网络模型(其实只是多个lasso回归),提出了一种量化基因间转录调控关系(协调性)的年龄相关变化方法。使用GTEX数据集,作者通过开发的方法揭示了八个人体组织内基因-基因关系中与年龄相关的趋势,这表明基因共表达的减少也可能是协调转录反应的结果。作者的分析表明,随着年龄的增长,基因与基因之间关系增强和减弱的数量相似,既影响组织的特异性(例如血液中的凝血功能),也影响普遍存在的生物通路。随年龄增长而减弱的调控关系主要是在通路之间的基因之间建立的。与此相反,随年龄增长而变强的调控关系既存在于不同通路内部,也存在于不同通路之间

结论:虽然大多数转录调控基因与基因之间的关系在衰老过程中得以维持,但那些调控耦合性下降的基因主要是由于不同通路之间失去了协调。看不懂没关系,最后的结论其实就是,衰老过程中不同信号途径之间的协调出了问题(这里就要想了,如何评估可协调性)

| 研究思路

1. 使用转录组数据分析基因-基因之间的协调关系

图片

▲ 图1:不同年龄分组、组织之间指定通路中基因间相关情况,以及基于LASSO构建的网络模型重构基因表达

  • a. 作者在基因本体 (Gene Ontology,GO)条目中挑选了五组基因集,这些基因既包括细胞类型特异的(如抗原结合,antigen binding) ,也包括每种细胞都有的 (如线粒体呼吸链,mitochondrial respiratory chain),还包括外部的调控类型 (如细胞外基质成分,ECM components) 和蛋白复合物 (如聚合酶 II 核心复合物,Pol-II core complex) 。随后他们使用 GTEX 数据,在不同的组织上,分别计算了年轻 (young, 20-29 岁) 或年老 (old, 60-69 岁) 的分组样本中,上述五个通路中基因与基因 (基因对) 的皮尔逊相关性。重点分析了两种细胞组成和功能存在差异的组织脑和血液,也将所有组织的数据汇总在一起。从图中可以看到,同一个功能(基因集)内部的基因存在相关性。不仅如此,不同的功能之间也存在协调关联,尤其是线粒体呼吸链和 RNA Pol-II 核心复合体的编码基因之间的相关性。值得注意的是,作者还观察到与年龄有关的基因共表达差异,既有个别组织特有的,也有跨组织共有的这个地方还是有些复杂的,给各位老铁举三个例子:①存在多对基因只在某个组织(比如肺)里面具有表达相关性(组织特异性);②也存在多对基因只在老年人身上有表达相关性(年龄特异性);③这些相关的基因对之中,有些基因对可能是同一个通路的,也有可能是不同通路的。所以说,这里作者不仅仅看常规的相关性,也看相关性在不同组织、不同年龄分组的变化。是一个借鉴的点,大家常规都做表达的差异,但如果你做基因对相关性的差异,那不是得领先一个版本。同时,基因对中的两个基因可能是一个通路的,也可能是来自于不同通路,一下子就多了好多可以分析的东西。这个图a的热图最右边两张是reconstructed(重构)的表达,老铁们留意一下,也是一个关键点(等会说)。

  • b. 年轻 (不透明颜色)和年老 (透明颜色)样本中不同通路内部 (彩色)和通路之间 (米色)相关性的量化差异,同样分成了原始表达和重构表达两张图。

  • c. 作者在文章中表示,两个基因之间的关系过于简单。如图所示,对于一个基因比如基因a,如果存在多个基因能够预测这个基因a的表达(图中是基因b与基因c),那么这种关系比简单的两个基因共表达更能反映协调表达的功能要求 (此外,基因b和c可能来自与基因a相同或是不同的通路,所以或多或少体现了通路内或通路间的协调关系)。具体而言,建模方法选择的是lasso,数据则是使用了来自两项研究的癌症细胞系数据。也就是说,对于每个基因,都有一个模型用于预测它的表达,模型的输入则是其他基因的表达。每个模型使用的基因以及其数量是不同的,但通过癌症细胞系数据进行训练,获得了最优的基因组合和相应的权重。这个模型就像个网络一样,所以作者称之为网络模型,但实际上就是多个lasso模型而已。同时,前面图表提到的reconstructed(重构)的表达其实就是用这些训练好的lasso模型重新在年龄数据集上计算了每个基因的表达量。以前面几张重构对应的图表其实也是验证,表明模型学习到了年龄、组织分组中基因之间的协调关系。

2. 评估与年龄有关的基因表达协调变化

图片

▲ 图2:通过模型评估整个转录组的可预测性,及其在各组织中随年龄的变化

  • a. 接下来,作者系统地研究了人体组织中整个转录组基因调控程序的变化。为了定义这种基因调控程序的评价指标,也就是前面提到的通路内基因、通路间基因协调性,作者利用了刚才基于lasso建立的网络模型。具体解释一下,网络模型由多组基因-基因关系的lasso模型组成,这些关系在多种多样的细胞状态下都是不变的(已经被作者证明了)。因此,作者认为这种基因表达协调的变化会改变我们的网络模型正确预测基因表达的能力只要基因的调控与模型学习到的结构 "一致",它就可以预测,而偏离模型结构的调控输入则会降低它的可预测性。换句话说,如果某些网络模型无法预测相应的基因表达,这可不是模型的问题,而是该基因在机体的协调性出了问题(该基因与其他基因不相关了,所以也预测不出来了)这种协调性具体的量化方式如a中上面两张小图所示,计算观察到的表达模式(原始数据中,横坐标)与模型预测的表达模式(重建数据中,纵坐标)之间的斯皮尔曼相关性,相关性高(左图)则表明协调性正常,相关性低(右图图)表示协调性异常,作者又把这个相关性称作可预测性得分。下面那张图将年龄分成了多个小组,展示了随年龄升高协调性(可预测性)的三种变化,对于一个基因,其在年龄的升高中协调性可能没有发生变化、或者降低、也有可能升高。可以说,通过对于lasso模型的可解释性分析,作者设计了一种评价基因协调性变化的关系。这种研究模式可以说对所有的疾病都是可以套用的,比如在肿瘤与癌旁中基因协调性的变化

  • b. 可预测性的p值分布(回归是具有p值的)。红线:计算得到的p值分布;灰色背景:100 个年龄组的平均 P 值分布;黑线:从背景中随机抽取的五个组;垂直虚线表示在每个组织中被认为具有统计学意义的基因中最高的 P 值。

  • c. 热图展示了所有基因(370 个)的可预测性斜率热图。

  • d. 显著富集年龄相关基因-基因关系变化(可预测性的变化)的标志基因集; 热图显示了至少在一个组织中具有统计学显著性(FDR < 0.05)富集的所有标志基因。

  • e.每个组织前 100 个最显著基因中可预测性增加(蓝色)和减少(橙色)的基因数。

后面还有两张组图就不放了

一张分析的是影响基因可预测性的因素

另一张则是分析通路内、通路间基因的可预测性变化趋势

最后发现这些协调性下降的基因都是不同通路间的

于是得出了开头的结论

推荐各位也去仔细阅读一下

可以说这篇文章思路确实领先

①基因相关性对的变化

②回归模型替代相关性对

③基于模型的解释提供协调性的评估方案

④影响协调性的潜在因素

⑤协调性变化基因对中,通路内、通路间的关联模式

欢迎各位老哥老姐关注

就分享到这了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2132501.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电巢科技携Ecosmos元宇宙产品亮相第25届中国光博会

第25届中国国际光电博览会&#xff08;“CIOE中国光博会”&#xff09;今日在深圳国际会展中心盛大开幕。本届博览会以“光电引领未来&#xff0c;驱动应用创新”为主题&#xff0c;吸引了全球超过3700家优质光电企业参展&#xff0c;展示了光电产业的最新成果和前沿技术。 电…

OAExploit一款基于OA产品的一键扫描工具

OAExploit一款基于OA产品的一键扫描工具 01 项目介绍 一款扩展性高的渗透测试框架渗透测试框架 出现卡死的几种情况&#xff1a;1.点击按钮太快 2. 打印log 的异常 02 工具展示

说真心话,在IT行业,项目经理不懂「敏捷管理」真混不下去!

根据PMI官方2015年的《职业脉搏调查》报告显示&#xff0c;高度敏捷、快速做出市场反应的组织与行动迟缓的组织相比&#xff0c;项目的成功率更高。 因此&#xff0c;在快速发展的IT行业中&#xff0c;项目经理如果能够具备快速迭代、灵活应对市场需求的“敏捷管理”思维会更吃…

--- 数据结构 优先级队列 --- java

之前提高到队列是一种先进先出的结构&#xff0c;但是在某些情况下操作的数据具有优先级&#xff0c;那么对他先进行操作&#xff0c;这时队列就不能满足需求了&#xff0c;因为队列只能操作对头的元素&#xff0c;而具有优先级的数据不一定是在对头&#xff0c;这样就需要优先…

RHCE--复习(二)之时间同步服务器

一、计时方式的发展 1.1.古代计时方式 在远古时期&#xff0c;人类用来确定时间的方式是一些自然界“相对”宜古不变的周期。如地球的公转是为一年&#xff0c;月球的公转是为一月&#xff0c;地球的自转是为一天等&#xff0c;最早的计时可以追溯到公元前大约2000年&#xff…

ESP8266+eclipse+AP+最简单webserver

实现AP模式下&#xff0c;http-server功能 在ESP8266_RTOS_SDK\ESP8266_RTOS_SDK\examples\wifi\getting_started\softAP增加webserver部分代码 1. 代码 //softap_example_main.c /* WiFi softAP ExampleThis example code is in the Public Domain (or CC0 licensed, at y…

LLaMA-Factory QuickStart

转自&#xff1a;知乎 1. 项目背景 开源大模型如LLaMA&#xff0c;Qwen&#xff0c;Baichuan等主要都是使用通用数据进行训练而来&#xff0c;其对于不同下游的使用场景和垂直领域的效果有待进一步提升&#xff0c;衍生出了微调训练相关的需求&#xff0c;包含预训练&#xf…

R1234yf汽车空调制冷剂简介

R1234yf汽车空调制冷剂是一种具有优异性能的环保型制冷剂,它被设计用于替代传统的R134a制冷剂。以下是关于R1234yf汽车空调制冷剂的详细介绍: 一、基本属性 化学名称:2,3,3,3-四氟丙烯 简称:R1234yf或HFO-1234yf 性质:无色HFO制冷剂气体 二、环保特性

2024网络安全人才实战能力白皮书安全测试评估篇

9月10日&#xff0c;国内首个聚焦“安全测试评估”的白皮书——《网络安全人才实战能力白皮书-安全测试评估篇》&#xff08;以下简称“白皮书”&#xff09;在国家网络安全宣传周正式发布。 作为《网络安全人才实战能力白皮书》的第三篇章&#xff0c;本次白皮书聚焦“安全测…

【原创】java+swing+mysql项目管理系统设计与实现

个人主页&#xff1a;程序员杨工 个人简介&#xff1a;从事软件开发多年&#xff0c;前后端均有涉猎&#xff0c;具有丰富的开发经验 博客内容&#xff1a;全栈开发&#xff0c;分享Java、Python、Php、小程序、前后端、数据库经验和实战 文末有本人名片&#xff0c;希望和大家…

小程序开发设计-第一个小程序:安装开发者工具③

第一个小程序&#xff1a;安装开发者工具 1.了解微信开发者工具&#xff1a; 微信开发者工具是官方推荐使用的小程序开发工具&#xff0c;它提供的主要功能如下&#xff1a; ①.快速创建小程序项目 ②.代码的查看和编辑 ③.对小程序功能进行测试 ④.小程序的预览和发布 2.下载…

swiftUI结构体数组修改属性UI没更新

SwiftUI使用了值语义&#xff0c;即当数组的值发生更改时&#xff0c;SwiftUI无法检测到具体的更改操作。 要解决这个问题&#xff0c;可以使用SwiftUI中的State属性包装器来创建一个可观察的状态变量。当数组发生更改时&#xff0c;通过更改状态变量的值来触发列表的更新,但是…

ASCII、Unicode、UCS-2、UTF-8互转编码原理

基础 ASCII (American Standard Code for Information Interchange),1967年 GB2312 是中华人民共和国国家汉字信息交换用编码,国家标准总局发布&#xff0c;1981年5月1日实施,对应的国标标准号&#xff1a;GB/T 2312-1980 Unicode 1990年开始研发&#xff0c;1994年发布初版…

【聊聊AI编程必不可少的NLTK及其punkt、punkt_tab安装】

聊聊AI编程必不可少的NLTK及其punkt、punkt_tab安装 前言一、NLTK是什么&#xff1f;二、安装NLTK1.通过cmd安装&#xff1a;2.通过conda安装&#xff1a; 三.下载NLTK Data数据包1.官网下载2.Github下载3.Gitee下载3.1 下载并安装nltk_data3.2 下载并安装punkt_tab 4. nltk_da…

开展文化创新与传承 全球老子圣像评选启动

9月11日&#xff0c;在刚见证了中华社会文化发展基金会老子文化公益基金成立发布会盛典的中华文化园&#xff0c;又迎来了中华社会文化发展基金会领导的亲临指导。本次指导由中华社会文化发展基金会执行副秘书长蒋晔带队&#xff0c;魏欣主任和高凯主任同行&#xff0c;共同考察…

RNN发展(RNN/LSTM/GRU/GNMT/transformer/RWKV)

RNN到GRU参考&#xff1a; https://blog.csdn.net/weixin_36378508/article/details/115101779 tRANSFORMERS参考&#xff1a; seq2seq到attention到transformer理解 GNMT 2016年9月 谷歌,基于神经网络的翻译系统&#xff08;GNMT&#xff09;&#xff0c;并宣称GNMT在多个主…

3D培训大师,化工企业安全教育与应急演练的新助力

化工企业的生产安全培训&#xff0c;作为保障员工生命安全与企业稳定运营的基石&#xff0c;其重要性不言而喻。传统的培训方式内容僵化、形式单一缺乏互动、效果难以评估&#xff0c;越来越不适应化工企业的实际需求。因此&#xff0c;探索和应用更为高效、创新的培训工具&…

【Qt】实现顶部导航栏自适应滑动效果

需求&#xff1a; 顶部导航栏有若干选项&#xff0c;可能很多&#xff0c;顶部区域不能完全展示&#xff0c;比如10个选项&#xff0c;界面一次只能展示五个&#xff0c;那么要求把后面的选项隐藏起来&#xff0c;并且&#xff0c;当点击第四个第五个按钮的时候&#xff0c;自…

软件工程进度管理

答案&#xff1a;A D 解析&#xff1a; 由选项可以看出&#xff0c;有B,E,C,K&#xff0c;这里选择经过它们路径最长的就是正确答案 选项B 路线 ABIJL362819 路线 ABDIJL3522820 选项E 路线 AEGJL432817 路线 AEGHKL4334317 选项C 路线 ACFHKL5314316 选项D 路线 A…

【GBase 8c V5_3.0.0 分布式数据库常用维护命令】

一、查看数据库状态/检查&#xff08;gbase用户&#xff09; 1.gha_ctl monitor 使用gha_ctl monitor查看节点运行情况(跟dcs的地址和端口) gha_ctl monitor -c gbase -l http://172.20.10.8:2379 -Hall |coordinator | datanode | gtm | server|dcs:必选字段。指定查看哪类集…