Nat. Med. | 基于遗传学原发部位未知癌症的分类和治疗反应预测

news2025/1/10 1:59:16

今天为大家介绍的是来自Alexander Gusev团队的一篇论文。原发部位未知癌症(Cancer of unknown primary,CUP)是一种无法追溯到其原发部位的癌症,占所有癌症的3-5%。CUP缺乏已建立的靶向治疗方法,导致普遍预后不佳。作者开发了OncoNPC,这是一个基于机器学习的分类器,使用来自三个机构的22种癌症类型中的36,445个肿瘤的定向次世代测序(NGS)数据进行训练。肿瘤NGS基础的原发癌类型分类器(OncoNPC)在保留的肿瘤样本上取得了加权F1分数为0.942的高置信度预测(≥ 0.9)。

d1a3945069c4792a142d742e1629715a.png

当标准化的诊断流程,包括影像学和病理学评估,未能确定转移性癌症的原发部位时,将其诊断为原发部位未知的癌症(Cancer of Unknown Primary,CUP)。CUP在全球范围内占所有癌症的约3-5%,以其侵袭性进展和预后不良(生存期为6-16个月)为特点。原发部位的隐藏性质限制了治疗选择,因为临床对某些治疗的反应因患者的肿瘤类型而异。新兴的癌症治疗针对可操作的分子改变通常是针对特定癌症类型开发的,因此对于CUP患者意义不怎么大。因此,准确地确定CUP肿瘤的潜在原发部位,并证明针对特定部位的治疗在临床上的益处,可能会为CUP患者开启许多现有的治疗选择。

病理学评估在根据免疫组织化学(IHC)结果以及肿瘤形态学和临床发现确定恶性肿瘤的原发癌症类型方面发挥着关键作用。然而,高度转移性或分化差的肿瘤的病理诊断可能具有挑战性。对于已知的癌症类型,先前的研究显示基于IHC的诊断流程可以正确识别77-86%的原发肿瘤,而对于转移性肿瘤则降低到60-71%。对于CUP患者,表明单一原发诊断的IHC结果仅占肿瘤的25%。分子肿瘤分析已被提出作为原发部位分类的一种替代方法,可能适用于CUP肿瘤,因为其具有定量性质,并且在已知癌症类型的肿瘤中具有高准确性。这些工具依赖于微阵列DNA甲基化、全基因组测序、RNA测序数据或基因表达谱。然而,尽管它们是有效的,但这些测序技术尚未整合到标准护理中,而且往往成本较高。在最近的研究中,已经证明通过针对目标区域的下一代测序(NGS)可以进行准确的原发癌症类型分类,这些测序数据现在在许多癌症中心收集。然而,它在诊断和辅助CUP患者治疗方面的临床效用尚未得到系统地调查。在这里,作者使用了来自三个机构的36,445个肿瘤样本的NGS目标面板测序数据,以训练和评估一个机器学习分类器,用于预测给定肿瘤样本的原发癌症类型。

7fdb68483c0f72767b263d31c6681350.png

图 1

OncoNPC准确地分类了22种已知的癌症类型

68f432daec0dfddbd015e7c1dfecd027.png

图 2

作者开发了OncoNPC,这是一个基于多中心目标面板测序数据训练的分子癌症类型分类器(图1)。OncoNPC使用体细胞变异,包括突变(单核苷酸变异(SNVs)和插入/缺失突变),突变标记、拷贝数变异(CNAs)以及测序时的患者年龄和性别等特征,使用XGBoost算法进行癌症类型预测。OncoNPC在包括来自Dana-Farber癌症研究所(DFCI)、Memorial Sloan Kettering(MSK)癌症中心和Vanderbilt-Ingram癌症中心(VICC)的22种已知癌症类型的29,176个原发肿瘤和转移肿瘤样本的处理数据上进行了训练和验证。在所有22种癌症类型中,OncoNPC在测试样本上实现了0.784的加权F1分数,其中包括7,289个肿瘤样本(加权精度和召回率分别为0.789和0.791)。在13个癌症组中(根据部位和治疗选择分组;表1),OncoNPC实现了0.806的整体加权F1分数(加权精度和召回率分别为0.810和0.809)。尽管癌症类型之间存在明显的类别不平衡,OncoNPC在癌症类型(图2a)和癌症组(图2b)之间展现出良好的平衡精度。作者在以下四个不同的预测置信水平下评估了OncoNPC的性能,这些水平基于pmax(即在22种癌症类型中的最大预测概率):0.0(涵盖所有样本),0.5,0.7和0.9。基于pmax的阈值应用结果进一步改善了性能,当pmax≥0.5时,加权F1得分为0.830,当pmax≥0.9时,加权F1得分为0.942(图2c、2d)。虽然罕见的癌症类型通常具有较低的整体性能,但增加pmax阈值可以减小常见/罕见癌症类型之间的差异。特征去除研究证明,在仅保留基因组特征的前50%的情况下,OncoNPC仍然可以获得高性能(整体加权F1得分为0.757,而在pmax阈值为0和0.9时分别为0.777和0.950)。

应用OncoNPC于CUP肿瘤样本

作者将OncoNPC应用于对971例CUP肿瘤的分类,这些肿瘤样本来自于被送往DFCI(Dana-Farber癌症研究所)并作为常规临床护理的一部分进行了测序。与DFCI的3690个已知原发癌肿瘤(CKP)的OncoNPC分类相比,CUP肿瘤的预测概率平均较低(0.764与0.881相比),但与DFCI的8025个CKP,包括未在OncoNPC中建模的肿瘤类型,的预测概率相当(0.769)。这表明CUP肿瘤可能包含其他罕见的肿瘤类型。尽管如此,41.2%的CUP肿瘤(971个中的400个)仍然可以高度自信地分类(即,pmax ≥ 0.9),并且多个分类的肿瘤类型,包括NSCLC、BRCA、PAAD和PRAD,其预测概率分布与其对应的CKP相当(图3a)。有趣的是,尽管在训练集中这些类型的肿瘤样本数量很少(n = 359,占训练集的0.99%),但被预测为GINET的CUP仍然高度自信,这表明一些罕见的肿瘤类型可能仍然可以自信地识别出来。如图3b所示,最常见的CUP癌症类型是NSCLC、PAAD、BRCA、EGC和COADREAD。NSCLC、BRCA和COADREAD也是最常见的CKP类型。这与以前的研究结果大致一致,即通过尸检揭示的CUP的潜在原发癌中,最常见的包括肺癌、大肠癌和胰腺癌。最后,将OncoNPC应用于MSK癌症中心的581个CUP肿瘤时也观察到了类似的比率。

解释OncoNPC癌症类型预测

8cf9429c1c57e95b0e4f301aa5bbc2f1.png

图 3

OncoNPC学习了输入体细胞变异和临床特征之间的复杂非线性关系,并提供可解释的原发癌症类型预测,其中每个输入特征对预测的影响通过SHAP值进行量化。作者调查了在CKP和CUP队列中预测每种癌症类型最有影响力的特征,以评估OncoNPC的有效性(有关CUP队列中前三个最常预测的癌症类型的信息,请参见图3d:NSCLC、BRCA和PAAD)。对于NSCLC,最重要的特征是EGFR突变和SBS4,这是与烟草吸烟相关的突变特征,分别用于预测CKP肿瘤样本和预测为NSCLC的CUP肿瘤样本,与肺癌的已知病因一致。EGFR基因的体细胞突变在NSCLC肿瘤中经常观察到,并且该基因本身是NSCLC患者的已知治疗靶点。烟草烟雾中的致癌物质已被认为是导致肺癌的原因。对于BRCA,对于CKP和CUP肿瘤样本,最重要的特征是性别,如预期的那样,其次是PIK3CA的体细胞突变和CCND1基因的变异,这些在乳腺癌中是已知的驱动基因和预后指标。对于PAAD,KRAS突变明显高于人群平均水平,并且是最重要的体细胞特征。KRAS基因的突变在胰腺癌患者中经常发生,并且已知具有预后意义。OncoNPC提供了直观的可视化,以解释个体级别的预测。

参考资料

Moon, I., LoPiccolo, J., Baca, S.C. et al. Machine learning for genetics-based classification and treatment response prediction in cancer of unknown primary. Nat Med 29, 2057–2067 (2023). 

https://doi.org/10.1038/s41591-023-02482-6

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1183079.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C语言】函数的系统化精讲(三)

文章目录 一、递归举例二、递归举例2.1求n的阶乘2.2 顺序打印⼀个整数的每⼀位 三、递归与迭代3.1递归的思考3.2求第n个斐波那契数 总结 一、递归举例 .通过上回(【C语言】函数的系统化精讲(二))我们了解到递归的限制条件&#x…

企业如何落地搭建商业智能BI系统

随着新一代信息化、数字化技术的应用,引发了新一轮的科技革命,现代化社会和数字化的联系越来越紧密,数据也变成继土地、劳动力、资本、技术之后的第五大生产要素,这一切都表明世界已经找准未来方向,前沿科技也与落地并…

Confluence 恢复的时候数据版本问题

如果 Confluence 恢复的时候提示数据库的版本不正确或者有问题。 如下图所示: 只要版本差不太多,你可以通过数据库来自动调整版本信息。 有关 Confluence 安装的数据库表位置在:CONFVERSION 这个表。 把这个表中的数据更新下就可以了。 当…

网络安全深入学习第八课——反向代理(工具:frp)

文章目录 一、实验环境二、实验要求三、开始模拟1、攻击机配置frp文件2、攻击拿下跳板机,并且上传frpc.ini、frpc.exe、frpc_full.ini文件3、把frps.ini、、frps.exe、frps_full.ini文件放到VPS主机上4、VPS机开启frp5、跳板机开启frp6、验证 一、实验环境 攻击机&…

C++:STL第一篇vector

目录 1.vector 的介绍及使用 1.1 vector的介绍 1.2 vector的使用 1.2.1 vector的定义 1.2.2 vector iterator (迭代器)的使用 1.2.3 vector空间增长问题 1.2.4 vector的增删改查 1.2.5 vector 迭代器失效问题。(重点) 2.vector 深度刨析及模拟实…

git增加右键菜单

有次不小心清理系统垃圾,把git右击菜单搞没了,下面是恢复方法 将下面代码存为.reg文件,双击后导出生效,注意,你安装的git必须是默认C盘的,如果换了地方要改下面注册表文件中相关的位置 Windows Registry …

elform-item动态prop

先来看看我这个变态而又复杂的需求! 目前自定义表单的前端开发越来越热,开发人员封装好成熟的组件,用户直接拖动生成自己的页面!这样的特点就是: 页面中显示的东西,完全是自定义组合的而不是固定的&#…

在 “219.**** 找不到用于监控项 key“agent.hostname“ 的主机接口.

细节 无法添加主机 在 "219.151" 找不到用于监控项 key"agent.hostname" 的主机接口.z 这个时候要改一下 方式:

区块链导论:数字经济需要培养多学科交叉综合人才

日前,在第三届“一带一路”国际合作高峰论坛数字经济高级别论坛上,香港科技大学校长叶玉如提出了一个引人深思的观点:“数字经济是多个学科领域交叉融合,我们需要的人才既要懂得经济学,也要理解人工智能、大数据、区块…

STM32Cube +VSCode开发环境搭建

STM32Cube VSCode开发环境搭建 0.前言一、各种方式对比1.STM32CubeMX CLion2.STM32CubeIDE VSCode STM32 VSCode Extension3.VSCode EIDE插件 二、STM32CubeIDE VSCode STM32 VSCode Extension环境搭建1.需要安装的软件2.相关配置3.编译测试 三、总结 0.前言 工欲善其事&…

视频批量剪辑技巧:AI智剪,智能技术让视频剪辑更简单

在视频制作过程中,剪辑是一项必不可少的任务。然而,对于许多非专业人士来说,视频剪辑却是一项令人望而生畏的任务。需要耗费大量的时间和精力,而且还需要一定的技术和经验。但是,随着人工智能技术的不断发展&#xff0…

yolov5的qat量化

前两篇文章讲解了yolov5的敏感层分析及ptq量化流程,本篇文章在前两篇文章的基础上,继续讲解yolov5的qat量化流程。 ptq和qat的区别如下所示: qat量化流程如下所示: 首先在数据集上以FP32精度进行模型训练,得到训练好的baseline模型;在baseline模型中插入伪量化节点,进行…

时序教程六部曲:Kaggle 时间序列实战项目

在https://kaggle.com/learn页面Kaggle官方提供了学习实战项目,最近更新了Time Series时间序列的知识点。 Time Series 课程包括如下章节: Linear Regression With Time Series Trend Seasonality Time Series as Features Hybrid Models Forecast…

C++命名空间知识点总结

引入 在 C 应用程序中。可能会写一个名为 xyz() 的函数,在另一个可用的库中也存在一个相同的函数 xyz()。这样,编译器就无法判断所使用的是哪一个 xyz() 函数。 因此,引入了命名空间这个概念,专门用于解决上面的问题&#xff0c…

LibreOJ - 2874 历史研究 (回滚莫队)

回滚莫队就是在基础莫队的前提下,用更多的增加操作代替了减操作。 分成两种情况 1、一个询问的整个区间都在一个块儿里;这种情况直接暴力求即可,因为在一个块儿里,时间复杂度不会高。 2、一个询问的整个区间不在一个块儿里&#…

【Shell脚本6】Shell 运算符

Shell 基本运算符 Shell 和其他编程语言一样,支持多种运算符,包括: 算术运算符关系运算符布尔运算符逻辑运算符字符串运算符文件测试运算符 原生bash不支持简单的数学运算,但是可以通过其他命令来实现,例如 awk 和 …

轻量封装WebGPU渲染系统示例<21>- 3D呈现元胞自动机之生命游戏(源码)

实现原理: 基本PBR光照与gpu compute计算 当前示例源码github地址: https://github.com/vilyLei/voxwebgpu/blob/feature/rendering/src/voxgpu/sample/GameOfLifeSpherePBR.ts当前示例运行效果: 其他效果截图: 此示例基于此渲染系统实现,当前示例TypeScript源码如…

使用Ruby编写通用爬虫程序

目录 一、引言 二、环境准备 三、爬虫程序设计 1. 抓取网页内容 2. 解析HTML内容 3. 提取特定信息 4. 数据存储 四、优化和扩展 五、结语 一、引言 网络爬虫是一种自动抓取互联网信息的程序。它们按照一定的规则和算法,遍历网页并提取所需的信息。使用Rub…

Leetcode刷题详解——子集

1. 题目链接:78. 子集 2. 题目描述: 给你一个整数数组 nums ,数组中的元素 互不相同 。返回该数组所有可能的子集(幂集)。 解集 不能 包含重复的子集。你可以按 任意顺序 返回解集。 示例 1: 输入&#xf…

Mactracker for mac(硬件信息查询工具)免费下载

想知道你电脑的信息吗?Mactracker Mac版是Macos上一款硬件信息查询工具,可以查询电脑中的硬件信息,还可以查看您使用软件的具体情况,苹果电脑产品和周边产品的信息,售价等等,让您对电脑有更多深刻的了解。 …