项目文章 | RNA-seq+WES-seq+机器学习,揭示DNAH5是结直肠癌的预后标志物

news2025/1/10 3:24:34

肿瘤突变负荷(TMB)已成为预测结直肠癌(CRC)患者预后和对免疫治疗反应的关键生物标志物。然而,全外显子测序(WES-seq)作为TMB评估的金标准,成本高且耗时。此外,高TMB患者之间的异质性尚未得到充分表征。相关研究表明,高TMB患者预后较好,但不同癌症类型之间的突变谱差异显著,现有泛癌症基因panel在特定癌症类型中的应用效果有限。机器学习方法在生物医学预测模型构建中具有重要价值。

2024年11月24日,南昌大学第一附属医院乐爱平教授团队在Biology Direct(IF=5.7)发表了题为“Machine learning-driven estimation of mutational burden highlights DNAH5 as a prognostic marker in colorectal cancer”的研究论文,该文章利用RNA-seq+WES-seq+机器学习,揭示DNAH5是结直肠癌的预后标志物(爱基百客为本研究提供了RNA-seq和WES-seq技术支持)。

 研究路线 

 研究结果 

1. 构建和评估机器学习驱动的TMB估计模型

该研究团队从南昌大学第一附属医院(FAHNU)收集了148名原发性结直肠癌(CRC)患者的肿瘤样本、相邻正常组织样本和外周血单核细胞(PBMCs),这些样本(FAHNU队列)用于通过联合分析RNA-Seq和全外显子组测序(WES-seq)数据来预测癌症新抗原(Fig. 1a)。整个模型创建和后续验证的流程图在Fig. 1b中展示。

图片

Fig. 1 研究设计流程图

来自TCGA数据库的患者CRC的体细胞突变数据被用于构建突变矩阵,该矩阵涵盖了586名患者共17,883个基因,特别针对非同义突变。根据突变频率≥5%和基因突变与肿瘤突变负荷(TMB)相关性的标准,筛选出468个与CRC相关的TMB相关基因。在这些基因中,TTN、SYNE1、PIK3CA、MUC16FAT4是突变频率超过20%的主要突变基因(Fig. 2a)。为了构建TMB估计模型,采用了这468个基因的突变矩阵。研究者使用了八种不同的机器学习模型来确定TMB估计的最优方法。这些模型包括弹性网络(ElasticNetCV)、Lasso回归、线性回归、随机森林、递归特征消除(RFE)、岭回归、支持向量回归(SVR)和XGBoost。每个模型都对每个规定的基因数量进行了1000次迭代,并且在内部验证集上评估了相应的R²分数(Fig. 2b展示了Lasso回归模型的结果)。

随着纳入模型的基因数量增加,所有模型的性能指标开始趋于平稳,达到一致性水平。除了随机森林和XGBoost模型外,其他六种模型的性能轨迹大致平行,尤其是随着基因数量的增加(Fig. 2c)。为了确定模型性能开始达到平衡的阈值,研究者采用了分段线性回归分析模型的R²值轨迹。一个关键的观察是,Lasso模型在20个基因标记时开始性能稳定,平均R²值为0.95。ElasticNetCV模型的性能轨迹与Lasso几乎相同,在31个基因时显示出一致的趋势,记录的R²值为0.949。当基因数量达到38时,ElasticNetCV的表现开始略优于Lasso。然而,当关注包含最少基因的模型时,Lasso模型表现出最佳性能(Fig. 1d)。基于TCGA训练集的结果,研究者推断Lasso模型是TMB估计最合适的选择

Fig. 2 基于机器学习的TMB估计模型构建与评估

2. 20个基因TMB预测模型在CRC患者中的应用

研究者专注于使用Lasso模型构建一个基于20个基因的TMB预测模型,这个模型在预测TMB时显示出最佳结果(Fig. 3a)。这20个基因包括DNAH3, MUC5B, DNAH5等,它们被选为最优的Lasso基础TMB预测模型(Fig. 3b)。与著名的泛癌TMB预测panel(如MSK-IMPACT和F1CDx)相比,这个20个基因模型表现出明显的差异,只有少数基因与CRC突变负荷明确相关。这强调了泛癌panel在捕捉与结直肠癌特别相关的TMB相关基因方面的不足。在这个20个基因模型中,只有CREBBPFAT1出现在其他泛癌panel中。

研究者在四个独立的CRC队列中测试了这个20个基因模型,基于20个基因panel的TMB预测模型在所有五个队列中显示出良好的性能(Fig. 3c)。研究者使用了八种不同的机器学习算法来选择20个基因的组合,以构建最优的预测模型。在所有模型中,ElasticNetCV和Lasso模型表现最佳,而Lasso模型在几乎所有队列中都表现最好(Fig. 3d)。

研究者将20个基因模型与F1CDx和MSK-IMPACT商业模型进行了比较,发现20个基因模型的TMB与这些商业模型得出的TMB估计值之间存在显著相关性(Fig. 3e,Fig. 3f)。在所有五个独立队列中,该模型的诊断性能与这些商业检测一致(Fig. 3g)。20个基因模型不仅在结直肠癌中有效,还在其他癌症(如胰腺癌、胶质瘤、宫颈癌和前列腺癌)中估计TMB时表现出有效性。该模型能够准确估计POLE突变的CRC患者的TMB,这些患者通常具有非常高的TMB水平,并在微卫星稳定(MSS)和微卫星不稳定(MSI)的POLE突变患者中提供可靠的TMB估计。综上所述,研究者得出结论,基于20个基因的Lasso模型构建的TMB估计模型最适合临床应用

图片

Fig.3 20个基因TMB估计模型构建与验证

3. 20个基因TMB模型与CRC患者预后的关联

研究者在三个数据集中评估了TMB与预后之间的关联,这些数据集总共包含超过1000名患者。研究发现,根据20个基因面板模型定义的高TMB患者展现出更好的总生存(OS)率(Fig. 4a)。此外,高TMB与良好的无进展生存(PFS)结果之间也存在显著关联(Fig. 4b)。研究者确定了PFS的理想截断点为274.06,这是由20个基因TMB模型确定的。在这个截断点下,患者的生存结果表现出最显著的差异。这个截断点将患者分为高TMB组(218名患者)和低TMB组(865名患者)(Fig. 4c)。与之前的研究一致,在TMB前20%的患者中存在显著的预后差异。

此外,TMB水平似乎仅与患者的临床分期相关,与年龄或性别等其他因素没有明显联系。研究者构建了包含性别、年龄、肿瘤分期和20个基因TMB的多变量Cox回归模型。多变量Cox回归分析表明,高TMB并不是OS的独立预后指标(Fig. 4d),但它是CRC患者PFS增强的独立预测因子(Fig. 4e)。当TMB被视为连续变量时,它不是OS或PFS的独立预测因子。这支持了TMB作为生物标志物的理解正从定量(突变越多越好)转向定性的观点。综上所述,基于20个基因面板模型估计的TMB与CRC患者的预后存在关联,特别是在预测PFS方面,高TMB是一个独立的预测因子

图片

Fig.4 20个基因TMB和DNAH5突变预后作用

4. DNAH5突变对TMBhigh CRC患者预后的影响

通过多变量Cox回归分析,研究者发现DNAH5基因的突变是TMBhigh患者更有利的无进展生存(PFS)结果的独立预测因子。具体来说,一个或多个DNAH5突变的存在对应于0.40的风险比(HR),95%置信区间(CI)从0.19到0.87(Fig. 4f)。虽然有DNAH5突变的TMBhigh患者的总生存(OS)没有显著差异(Fig. 4g),但在考虑PFS时,被标记为TMBhighDNAH5mut的患者展现出最佳的生存率(Fig. 4h)。有趣的是,DNAH5突变的预后影响似乎仅限于TMBhigh患者在TMB较低的患者亚组中,DNAH5突变对OS或PFS均无显著影响(Fig. 4d,Fig. 4e)。

对患者临床特征的分析显示,在TMB高的患者中,男性DNAH5突变更为常见。然而,DNAH5突变与ATUS之间没有显著关联(Fig.5a)。TMB升高与DNA损伤反应和各种DNA修复机制(如错配修复、同源重组、核苷酸切除修复、DNA复制和碱基切除修复)的增加活动相关。特别是在被归类为TMBhigh且有DNAH5突变的患者中,观察到DNA损伤反应和DNA修复途径的最显著活动(Fig. 5b)。GO富集分析显示TMBhigh患者主要表现出免疫信号通路的激活,包括适应性免疫响应、免疫响应的正向调节等(Fig. 5c)。此外,在携带DNAH5突变的TMBhigh患者中,这些免疫信号通路的激活更为明显(Fig. 5d)。

TMBhighDNAH5mut组的TME评分最高,表明TMBhigh患者经历了各种抗肿瘤免疫细胞的显著增加,包括CD8+ T细胞、滤泡辅助T细胞、激活的NK细胞和M1型巨噬细胞,所有这些都显示出显著增加。特别是TMBhighDNAH5mut患者展现出CD8+ T细胞、激活的NK细胞和M1型巨噬细胞的最高浸润率(Fig. 5e)。这些观察结果强调了TMBhigh与抗肿瘤免疫细胞浸润之间的关联

此外,TMBhigh与免疫治疗敏感性标志物相关,包括T细胞炎症基因表达谱(GEP)、效应CD8+ T细胞和免疫检查点。所有免疫治疗敏感性标志物在TMBhighDNAH5mut患者中都显著上调(Fig. 5f)。此外,TMBhigh还与激活的抗原呈递相关,这在TMBhighDNAH5mut中更为活跃(Fig. 5g)。这些结果进一步证实了TMB与CRC免疫治疗的有效性相关,且伴有DNAH5突变的TMB较高的患者可能从免疫治疗中获益更多

图片

Fig.5 TMB高且DNAH5突变的患者临床和基因表达特征

5. 20个基因TMB与肿瘤新抗原负荷(TNB)的关联

肿瘤突变可以产生多种抗原,但只有部分能刺激免疫反应。TNB衡量在特定基因组区域内产生的免疫原性抗原的数量。过去的研究表明,较高的TNB与接受免疫疗法的患者有更好的预后相关。在FAHNU和TCGA队列中,使用配对的RNA-seq和WES-seq数据分析了肿瘤新抗原。发现WES TMB和TNB之间存在强正相关。此外,基于20个基因面板模型估计的TMB与TNB也显示出明显的正相关(Fig. 6a)。IC50值小于50nM的新抗原被分类为高亲和力新抗原。WES TMB和基于20个基因面板的TMB都与高亲和力新抗原负荷(HTNB)显示出强相关性(Fig. 6b),表明20个基因面板模型是预测CRC患者新抗原水平的可靠工具。TMBhigh患者也有较高的TNB和HTNB(Fig. 6c)。值得注意的是,TMB、TNB和HTNB在TMBhighDNAH5mut患者中也显著增加(Fig. 6d-e)。分析显示,TMBhighDNAH5mut患者的CD8+肿瘤浸润性淋巴细胞(TILs)密度增加,表明有更活跃的免疫反应,这可能对预后和治疗策略有影响(Fig. 6f-g)。

Fig.6 20个基因TMB与肿瘤新抗原负荷相关

   结  论  

本文提出了一种基于20个基因的机器学习模型,用于在CRC患者中高效估算TMB。该模型不仅准确预测TMB,还与患者预后显著相关。特别是,DNAH5基因在TMBhigh患者中的突变与更好的预后相关,表明其在个性化治疗中的潜在应用价值。该研究为CRC的精准治疗提供了新的思路和工具。

   关于我们  

武汉爱基百客生物科技有限公司(简称爱基百客),位于武汉高农生物园,是一家专业提供表观组学科研服务、单细胞与空间组学测序分析和高通量测序分析的新型生物科技服务企业。公司先后引入ChIP、WGBS、ATAC-seq、DNBSEQ-T7、10x Genomics、SeekOne® DD、DNBelabC-TaiM4和Stereo-seq等实验平台,不断提升公司的科研服务能力。

运营至今合作的科研客户超2000家,涵盖国内知名科研院所、高校以及相关生物企业,科研成果曾多次在Science、Cancer Cell、Nature Communications、J HEMATOL ONCOL、Plant Cell 等国际高水平学术期刊发表,受到了客户广泛好评,是国内成长最迅速的高通量测序科研服务企业之一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2255084.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【NLP修炼系列之Bert】Bert多分类多标签文本分类实战(附源码下载)

引言 今天我们就要用Bert做项目实战,实现文本多分类任务和我在实际公司业务中的多标签文本分类任务。通过本篇文章,可以让想实际入手Bert的NLP学习者迅速上手Bert实战项目。 1 项目介绍 本文是Bert文本多分类和多标签文本分类实战,其中多分…

【CSS in Depth 2 精译_069】11.3 利用 OKLCH 颜色值来处理 CSS 中的颜色问题(上)

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第四部分 视觉增强技术 ✔️【第 11 章 颜色与对比】 ✔️ 11.1 通过对比进行交流 11.1.1 模式的建立11.1.2 还原设计稿 11.2 颜色的定义 11.2.1 色域与色彩空间11.2.2 CSS 颜色表示法 11.2.2.1 RGB…

基础算法——搜索与图论

搜索与图论 图的存储方式2、最短路问题2.1、Dijkstra算法(朴素版)2.2、Dijkstra算法(堆优化版)2.3、Bellman-Ford算法2.4、SPFA求最短路2.5、SPFA判负环2.6、Floyd算法 图的存储方式 2、最短路问题 最短路问题可以分为单源最短路…

IDEA创建Spring Boot项目配置阿里云Spring Initializr Server URL【详细教程-轻松学会】

1.首先打开idea选择新建项目 2.选择Spring Boot框架(就是选择Spring Initializr这个) 3.点击中间界面Server URL后面的三个点更换为阿里云的Server URL Idea中默认的Server URL地址:https://start.spring.io/ 修改为阿里云Server URL地址:https://star…

Git_如何更改默认路径

网上搜了一堆都不好使,其实可以直接使用git bash输入命令来解决 打开 Git Bash:首先打开 Git Bash 终端,这是一个类似于命令提示符的窗口,可在其中执行 Git 命令。设置 Git 默认存储路径:使用 git config 命令来修改 …

计算机毕业设计Python房价预测 房屋推荐 房价可视化 链家爬虫 房源爬虫 房源可视化 卷积神经网络 大数据毕业设计 机器学习 人工智能 AI

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

AndroidAutoSize实战教程:今日头条屏幕适配方案详解

如何在项目中结合 AndroidAutoSize 来进行今日头条屏幕适配,我会具体讲解如何用 AndroidAutoSize 实现屏幕适配,并结合 Kotlin 代码举例分析。 通过 AndroidAutoSize 库来实现屏幕适配,确保在不同的屏幕尺寸、分辨率、密度下,应用…

【HarmonyOS】层级轮播卡片效果

【HarmonyOS】层级轮播卡片效果 一、功能效果: 1.上下堆叠由大到小的卡片层叠效果。 2.上层卡片可手势左右滑动,自动左滑动。 3.三层卡片随滑动,内容进行依次切换。 二、开发思路 【完整代码见章节三】 1.最上层使用swiper进行轮播效果…

Postman自定义脚本Pre-request-script以及Test

这两个都是我们进行自定义script脚本的地方,分别是在请求执行的前后运行。 我们举两个可能经常运用到的场景。 (一)请求A先执行,请求B使用请求A响应结果作为参数。如果我们不用自定义脚本,可能得先执行请求A,然后手动复制响应结果…

一些引入依赖,提示引入方式报错的问题

背景 当我们使用gulp自动化处理文件的时候,难免会遇到需要按照一定条件过滤的需求,这里博主所遇到问题是,通过文件内容中是否包含 某一串字符串 决定过滤当前的文件 比如: 碰到文件中包含注释 * replace-note 此文件未被引用 ,那…

R语言 | 峰峦图 / 山脊图

目的:为展示不同数据分布的差异。 1. ggplot2 实现 # 准备数据 datmtcars[, c("mpg", "cyl")] colnames(dat)c("value", "type") head(dat) # value type #Mazda RX4 21.0 6 #Mazda RX4 Wag …

6月份stable diffusion animatediff等插件使用指南,又来更新了

插件一直会更新,包含了基本市面上流行的90%插件,好用的插件更是不会错过,往期插件请看往期文章,如果你没有时间一直关注sd更新的进展,请关注我,一个月用几个小时看一下我的文章,最短时间跟进sd。…

jmeter配置

单接口运行没问题,但是批量执行100个线程数发现总是提示请求不合法 最后发现 需要将配置改成 正好回归一下这个配置: Ramp-Up时间(秒)的定义: Ramp-Up时间是指在JMeter测试中,所有指定的线程&#xff08…

WPF中的VisualState(视觉状态)

以前在设置控件样式或自定义控件时&#xff0c;都是使用触发器来进行样式更改。触发器可以在属性值发生更改时启动操作。 像这样&#xff1a; <Style TargetType"ListBoxItem"><Setter Property"Opacity" Value"0.5" /><Setter …

如何利用Java爬虫获得商品类目

在当今数字化时代&#xff0c;数据已成为企业最宝贵的资产之一。获取和分析数据的能力对于任何希望在市场上保持竞争力的企业来说都是至关重要的。对于电子商务平台和市场研究公司而言&#xff0c;获取商品类目数据尤为重要&#xff0c;因为这些数据可以帮助他们更好地理解市场…

【Linux】程序的编译过程

程序的翻译过程 预处理&#xff08;头文件展开&#xff0c;条件编译&#xff0c;宏替换&#xff0c;去注释&#xff09;编译 &#xff1a;把c变成汇编语言汇编 &#xff1a;把汇编变成二进制&#xff08;不可执行&#xff0c;二进制目标文件&#xff09;链接 &#xff1a;把自…

#渗透测试#SRC漏洞挖掘# 操作系统-windows系统番外练习

免责声明 本教程仅为合法的教学目的而准备&#xff0c;严禁用于任何形式的违法犯罪活动及其他商业行为&#xff0c;在使用本教程前&#xff0c;您应确保该行为符合当地的法律法规&#xff0c;继续阅读即表示您需自行承担所有操作的后果&#xff0c;如有异议&#xff0c;请立即停…

信奥常考点:二叉树的构建(已知中序和 前序或后序 的情况下)

一、题目引入 这是来自CCF-GESP C七级认证 2024年9月的题目。 我们在此不解题&#xff0c;只把树画出来。 CCF-GESP 编程能力认证 C 七级 2024年9月份详细解析-CSDN博客 二、解题过程 我们可以根据先序遍历得出根节点是A&#xff0c;然后我们得到了A的左子树[B D]&#xff08;橙…

自回归模型(AR )

最近看到一些模型使用了自回归方法&#xff0c;这里就学习一下整理一下相关内容方便以后查阅。 自回归模型&#xff08;AR &#xff09; 自回归模型&#xff08;AR &#xff09;AR 模型的引入AR 模型的定义参数的估计方法模型阶数选择平稳性与因果性条件自相关与偏自相关函数优…

筑起厂区安全--叉车安全防护装置全解析

在繁忙的工业生产领域中&#xff0c;叉车作为搬运工&#xff0c;穿梭于仓储与生产线之间。然而&#xff0c;叉车的高效运作背后&#xff0c;也隐藏着诸多安全风险&#xff0c;尤其是在那些空间狭小、物流繁忙的环境中。为了降低这些潜在的危险&#xff0c;叉车安全防护装置便成…