人工智能在病理组学领域的最新研究进展

小罗碎碎念

本期推文主题：人工智能在病理组学领域的最新进展

今天的推文主要涉及三个癌种——结直肠癌、肾乳头状细胞癌、上皮性卵巢癌。既有淋巴结转移的风险预测模型，也有结合了测序数据的多模态病理AI模型。

重点关注一下第六篇文献，由西湖大学发表，从蛋白组学的角度出发，研究生物标志物，以预测患者一年的复发风险。蛋白组学和代谢组学一直是我重点关注的方向，与病理结合，或许是接下来一段时间的趋势。

最后提一嘴第一篇文献，泛癌分析与罕见癌症/亚型的分析，其实算是医疗AI领域最难攻破的一批方向了。数据收集不容易，分析更是困难，但是十年之内，这个方向应该会有较大的突破，建议有实力的老师/同学重点关注。

一、泛癌种检测与生物标志物预测：Virchow基础模型的性能与潜力

一作&通讯

作者类型	作者姓名	单位名称（英文）	单位名称（中文）
第一作者	Eugene Vorontsov	Paige, New York, NY, US	佩奇公司，纽约，美国
第一作者	Alican Bozkurt	Microsoft Research, Cambridge, MA, US	微软研究院，剑桥，马萨诸塞州，美国
通讯作者	Siqi Liu	Paige, New York, NY, US	佩奇公司，纽约，美国
通讯作者	Thomas J. Fuchs	Memorial Sloan Kettering Cancer Center, New York, NY, US	纪念斯隆凯特琳癌症中心，纽约，美国

文献概述

这篇文章介绍了Virchow，一个用于临床级计算病理学和罕见癌症检测的新型大型基础模型，它通过自监督学习在大量病理图像数据上训练，在多种癌症检测和生物标志物预测任务中展现出高性能。

Virchow是目前最大的计算病理学基础模型，它不仅能够预测生物标志物和识别细胞，还能实现泛癌种检测，包括九种常见和七种罕见的癌症类型。研究显示，即使在训练数据较少的情况下，基于Virchow构建的泛癌种检测器也能够达到与特定组织临床级模型相似的性能，并且在某些罕见癌症变体上表现更优。

Virchow模型通过自监督学习算法训练，能够生成数据表示（嵌入），这些嵌入能够很好地泛化到多种预测任务。与传统的计算病理学方法相比，Virchow能够捕捉到更广泛的组织形态学变化和实验室准备的变化，这对于临床实践中的泛化至关重要。此外，Virchow模型在处理罕见肿瘤类型或不常见的诊断任务（如预测特定的基因组变化、临床结果和治疗反应）时，显示出了其独特的价值。

研究还展示了Virchow在生物标志物预测方面的应用，这可以减少对额外测试的需要，加快为患者提供关键数据的速度。Virchow模型在多个层面上展示了其在计算病理学新领域的强大潜力，包括在罕见癌症检测和生物标志物预测方面的性能。

文章还讨论了Virchow模型的潜在临床影响，包括在临床实践中减少诊断周转时间、为不常见癌症开发临床级产品、以及使用常规H&E染色的WSI进行生物标志物预测等。

此外，文章也指出了Virchow模型的局限性，包括训练数据集来源单一、模型和数据规模的饱和点尚未明确等，并对未来的研究方向提出了展望。

重点关注

图1提供了Virchow模型研究的全面概述，包括训练数据集、训练算法和应用。

a. 训练数据描述：数据集可以从多个维度描述，包括患者（patients）、病例（cases）、样本（specimens）、组织块（blocks）或切片（slides）。这些维度展示了数据集的规模和多样性。

b. 癌症状态的切片分布：这部分展示了不同癌症状态下的切片分布，可能包括癌症、前体病变（如原位癌）、良性病变和未知状态。这有助于理解模型在不同癌症类型上的表现。

c. 手术类型的切片分布：这部分展示了根据手术类型（如活检、切除等）的切片分布。这有助于评估模型在不同手术背景下的适用性。

d. 组织类型的切片分布：这部分展示了不同组织类型的切片分布，如乳腺、皮肤、淋巴结等。这有助于了解模型在不同组织类型上的泛化能力。

e. 训练中的数据流：在训练过程中，切片被处理成小块（tiles），然后这些小块被裁剪成全局视图和局部视图。这种处理方式有助于模型学习到更丰富的局部和全局特征。

f. 基础模型的应用：展示了如何使用聚合器模型（aggregator model）来预测切片级别的属性。聚合器模型将小块嵌入（tile embeddings）聚合起来，以预测整个切片的属性，如癌症存在与否、癌症类型等。GI（胃肠道）在这里可能是指模型在胃肠道相关病理图像上的应用。

总结来说，图1展示了Virchow模型从训练数据的准备到模型训练，再到最终应用的整个流程。通过这种设计，Virchow能够处理和分析大规模的病理图像数据，为临床病理学提供支持。

二、多分类器系统揭示乳头状肾细胞癌术后复发新预测模型

一作&通讯

角色	姓名	单位（中文）	单位（英文）
第一作者	黄康波 (Kang-Bo Huang)	中山大学附属第一医院泌尿外科	Department of Urology, First Affiliated Hospital, Sun Yat-sen University
并列第一作者	桂成鹏 (Cheng-Peng Gui)	中山大学肿瘤防治中心	Sun Yat-sen University Cancer Center
通讯作者	罗俊航 (Jun-Hang Luo)	中山大学附属第一医院泌尿外科及精准医学研究所	Institute of Precision Medicine, First Affiliated Hospital, Sun Yat-sen University

文献概述

这篇文章报道了一个集成了长非编码RNA、全切片图像深度学习和临床病理分类器的多分类器系统，该系统能够准确预测乳头状肾细胞癌手术后的复发情况，并可能改善患者的个性化治疗决策。

研究团队开发了这一系统，它包括基于长非编码RNA（lncRNA）的分类器、基于深度学习的全切片图像（WSI）分类器和基于临床病理的分类器。这些分类器单独或联合使用，以提高对无复发生存期（RFS）的预测准确性。

研究发现，与单独使用任一分类器相比，多分类器系统在训练集和两个验证集中显示出显著更高的预测准确性（C指数为0.831-0.858，而单独分类器的C指数为0.642-0.777，p < 0.05）。研究还发现，多分类器系统定义的高风险I/II期和1/2级患者的RFS明显差于低风险III期和3/4级患者（p < 0.05）。

多分类器系统被认为是一个实用且可靠的预测工具，可以用来辅助当前的分期系统，更准确地预测疾病的进程，并为个体化辅助治疗策略提供信息。研究还讨论了多分类器系统与临床变量（如年龄、性别、分级和分期）的分层分析，并构建了一个列线图（nomogram），为临床医生提供了一个量化方法来预测pRCC患者的3年、5年和7年无复发概率。

此外，研究还探讨了多分类器风险评分与其他生物标志物（如CIMP高甲基化模式）在TCGA数据集中的结合使用，并发现多分类器风险评分在预测RFS方面更为准确。

这项研究的局限性在于，它的回顾性研究性质限制了其普遍性，并且患者群体主要来自中国和美国。因此，多分类器系统需要通过前瞻性研究和大规模多中心临床试验来进一步验证，才能广泛应用于临床环境。

重点关注

图 1 展示了多分类器系统的构建过程，该系统利用长非编码RNA（lncRNA）表达数据、全切片图像（WSIs）和临床病理因素分别开发了三个独立的分类器，并将它们整合以形成一个综合的多分类器系统。

A. 基于lncRNA的分类器的开发：

左上角的面板展示了一个火山图，比较了53对pRCC肿瘤组织与邻近正常组织的lncRNA表达差异。火山图的x轴表示生物学意义（log2倍数变化FC），y轴表示统计意义（-log10 P值）。
- 通过火山图分析，识别出40个lncRNA，它们的log2倍数变化大于1，并且错误发现率小于10^-25。
右上角的面板是一张热图，显示了53对pRCC中这40个lncRNA的表达水平。
中间左侧面板展示了使用LASSO Cox回归分析来选择包含在分类器中的lncRNA。两条虚线垂直线根据最小准则（右侧）和1减去标准误差（1-S.E.）准则（左侧）绘制在最优值处。
中间右侧面板展示了40个差异表达lncRNA的LASSO系数轮廓。使用最小准则在最优值处画了一条垂直线，最终选择了四个非零系数的lncRNA。
底部面板是一个流程图，总结了基于lncRNA的分类器的开发流程。

B. 使用深度学习开发基于WSI的分类器：

此部分描述了如何利用深度学习技术分析全切片图像，以开发能够预测pRCC复发的WSI基分类器。

C. 开发基于临床病理的分类器：

此部分描述了基于临床和病理因素开发分类器的过程，包括年龄、性别、肿瘤分级和分期等因素。

三、AI辅助预测T2结直肠癌淋巴结转移风险

一作&通讯

角色	姓名	单位名称（英文）	单位名称（中文）
第一作者	Katsuro Ichimasa	Digestive Disease Center, Showa University Northern Yokohama Hospital, Yokohama, Japan	昭和大学北横滨医院消化疾病中心，横滨，日本
第一作者(共同)	Caterina Foppa	Department of Biomedical Sciences, Humanitas University, Pieve Emanuele, Italy	意大利Humanitas大学生物医学科学系，皮耶维·埃马努埃莱，意大利
通讯作者	Antonino Spinelli	Department of Biomedical Sciences, Humanitas University, Pieve Emanuele, Italy; Division of Colon & Rectal Surgery, IRCCS Humanitas Research Hospital, Rozzano, Milano, Italy	意大利Humanitas大学生物医学科学系，皮耶维·埃马努埃莱，意大利；意大利IRCCS Humanitas研究医院结直肠外科，罗扎诺，米兰，意大利

文献概述

这篇文章是关于一项研究，目的是开发并验证一个更新的人工智能（AI）预测系统，用于分层预测T2期结直肠癌（CRC）患者淋巴结转移（LNM）的风险，并在不同国家的队列中进行了外部验证。。

研究包括来自日本和意大利两个中心的数据，涉及2000年4月至2022年5月期间接受手术切除的pT2 CRC患者。AI系统的预测因素包括年龄、性别、肿瘤大小和位置、淋巴血管侵犯、组织学分化和癌胚抗原（CEA）水平。通过受试者工作特征（ROC）曲线下的面积（AUC）、敏感性和特异性来评估该工具的区分能力。

研究结果显示，在初步的735名患者中，有692名符合条件。训练和验证队列分别包括492名和200名患者。AI模型在联合验证数据集中显示出0.75的AUC。LNM预测的敏感性为97.8%，特异性为15.6%。阳性和阴性预测值分别为25.7%和96%。假阴性（FN）率为2.2%，假阳性为84.4%。

研究结论指出，基于易于获取的临床和病理变量的AI模型在中度预测T2 CRC的LNM方面表现尚可。然而，需要考虑假阴性的风险。通过在西方和东方中心训练模型，包括更多的患者，并区分结肠癌和直肠癌，可能会提高其性能和准确性。

讨论部分强调了AI模型的几个优势，包括基于少数容易获得的变量、可能降低手术负担和相关并发症的风险，以及作为T2 CRC局部切除后风险分层的首次AI验证。尽管如此，研究也存在一些局限性，包括基于假设T2 CRC可以通过全层切除来切除，这并不总是可能的，以及模型仅在日本和意大利患者中进行了测试，建议重新训练以包括更多样本和其他种族的患者。

最后，研究者提出未来将AI模型作为开源工具在网上提供，以直接将先进的AI功能整合到日常临床实践中，使医疗保健提供者能够利用最新技术提高诊断准确性和患者结果。

四、QUASAR研究揭示：免疫细胞浸润密度对结直肠癌预后和化疗反应的影响

一作&通讯

角色	姓名	单位名称（英文）	单位名称（中文）
第一作者	Christopher J.M. Williams	Division of Pathology and Data Analytics, University of Leeds	利兹大学病理学与数据分析部门
通讯作者	Philip Quirke	Division of Pathology and Data Analytics, University of Leeds	利兹大学病理学与数据分析部门

文献概述

这篇文章是关于早期结直肠癌（Colorectal Cancer, CRC）的预后和辅助治疗效益预测的研究。

研究的目的是评估肿瘤浸润性CD3和CD8 T细胞免疫组化染色在早期结直肠癌预后和预测辅助化疗效益方面的价值。

研究使用了QUASAR试验（一项在II/III期结直肠癌中比较辅助氟尿嘧啶/亚叶酸与观察的试验）中868名患者的肿瘤组织进行CD3和CD8免疫组化分析。研究结果显示，高密度的肿瘤浸润性CD3和CD8 T细胞与较好的预后相关，但它们作为预测辅助化疗效益的指标尚不确定。

研究方法包括使用人工智能辅助的病理学家计算核心肿瘤（Core Tumor, CT）和侵袭边缘（Invasive Margin, IM）中CD3和CD8细胞密度。通过最大似然法在训练集中识别高风险/低风险组别的最优界点，然后在验证集中重复预后分析。

研究结果表明，在训练集中，高风险组的复发率是低风险组的两倍。在验证集中，这一结果得到了类似的复制。多变量分析显示，预后效果在结肠和直肠癌症中相似，并且在II期和III期疾病中也相似。高风险和低风险复发组在使用辅助化疗后的复发减少比例相似。

研究结论是，高风险CD3/CD8组的复发率是低风险组的两倍。化疗的减少比例在两组中相似，这允许使用当代非随机化数据集更新QUASAR试验中得到的需要治疗的人数（Number Needed to Treat, NNT）。

文章还讨论了免疫微环境在调节癌症进展中的作用，以及化疗可能通过调节局部和全身免疫机制来发挥作用。此外，文章还提到了使用CD3评分（结合了CT和IM中CD3密度的信息）来生成高风险、中风险和低风险组，并计算了预防一次疾病复发所需的治疗人数。

重点关注

FIG 2展示了结肠癌肿瘤微环境中CD3+和CD8+ T细胞的代表性免疫组化(IHC)图像。

图A中，整个组织切片用CD3染色后，手动标注了核心肿瘤区域(CT)和侵袭边缘(IM)（分别用红线和橙线表示）；图B中，CT和IM的标注通过图像配准算法转移到了相邻的CD8染色切片上；

图C到F显示了放大区域。插图展示了CD3+和CD8+ T细胞的逐细胞算法分类（红色圆点表示）。每个标记在每个区域的T细胞密度被量化为细胞数每平方毫米。CT代表核心肿瘤，IHC代表免疫组化，IM代表侵袭边缘。

这段描述说明了研究中如何通过免疫组化染色和图像分析技术来识别和量化肿瘤组织中不同类型的T细胞，以及如何利用这些数据来评估它们在肿瘤微环境中的分布和密度。

五、肿瘤微环境中神经变化对头颈癌患者吞咽功能的影响

一作&通讯

角色	姓名	单位（中文）
第一作者	Shajedul Islam	/
并列第一作者	Frederico O. Gleber-Netto	/
通讯作者	Moran Amit	德克萨斯大学MD安德森癌症中心（The University of Texas MD Anderson Cancer Center）
通讯作者	Katherine A. Hutcheson	德克萨斯大学MD安德森癌症中心（The University of Texas MD Anderson Cancer Center）
通讯作者	Teresa E. Lever	密苏里大学医学院（University of Missouri School of Medicine）

文献概述

这篇文章通过分析口咽鳞状细胞癌患者的病理组织样本，发现肿瘤相关的神经变化与患者的吞咽功能和生活质量结果相关，提示了神经信号在肿瘤治疗中的重要性，并为开发新的治疗策略提供了可能。

主要发现和结论包括：

研究发现，肿瘤中富含的肾上腺素能(TH+)和CGRP+感觉-传入神经与较差的吞咽结果相关。
功能肌电图记录显示，生长中的(GAP43+)和未成熟的胆碱能(ChAT+DCX+)神经与OPSCC幸存者的去神经模式相关。
通过小鼠模型进一步证实，未成熟的胆碱能和CGRP+神经与吞咽障碍相关。
临床干预研究也支持CGRP+和胆碱能(ChAT+)神经在治疗过的OPSCC小鼠模型中的独立贡献。
研究结果表明，CGRP+和ChAT+神经信号在OPSCC的肿瘤和放疗诱导的吞咽障碍中扮演不同角色，并提供了OPSCC神经景观的全面数据集。
这些见解可能指导早期干预措施，以保留吞咽功能，并在临床肿瘤学和生存者中重新利用与神经学相关的药物，如CGRP阻断剂。

研究强调了在OPSCC治疗中，针对特定神经群体的保护和治疗策略的重要性，以改善患者的生活质量和功能结果。

重点关注

Fig. 1 展示了使用多重免疫荧光(mIF)技术对接受手术和放疗(RT)或未接受放疗(n=29)的口咽鳞状细胞癌(OPSCC)患者的肿瘤神经微环境的分析，以及这些神经特征与临床病理参数之间的相关性。

(A) 描述了评估OPSCC患者手术样本的工作流程，包括对连续切片的三维重建和使用Visiopharm图像分析软件的神经识别（插图显示了20倍放大的图像）。
(B) 展示了20倍放大的OPSCC样本的代表性mIF分析。从左到右：显示了用泛神经标记NFH（绿色）标记的神经组织，以及功能性标记物MBP（黄色）、TH（白色）和CGRP（红色）的表达。
© 展示了40倍放大的OPSCC样本的代表性mIF分析。从左到右：显示了用泛神经标记B3T（绿色）和功能性标记物GAP43（红色）在同一视野中的表达；另一个视野显示了B3T（绿色）和功能性标记物DCX（白色）的表达；以及被4′,6-二脒基-2-苯基吲哚(DAPI)染色的细胞核包围的神经组织中功能性标记物VIP+TRPV1+（绿色和红色）的共表达，以及少数表达CK的上皮细胞。
(D) 展示了25倍放大的OPSCC样本的代表性高多重免疫荧光分析。上行从左到右：显示了用泛神经标记NFH（紫色）和B3T（白色）标记的神经组织，以及功能性标记物CGRP（红色）、GAP43（蓝色）和MBP（黄色）的表达。下行从左到右：显示了NFH+B3T+神经组织中功能性标记物TH（红色）和TRPV1（绿色）的共表达，以及在不同视野中表达功能性标记物DCX（黄色）和ChAT（红色）的NFH+B3T+神经组织，虚线表示在同一视野中与DCX和ChAT共表达的神经。
(E) 展示了气泡图，显示了特定神经群体的密度（x轴）与OPSCC患者临床病理特征（y轴）之间的统计关联。气泡颜色代表了每个临床病理变量组间平均神经密度的差异（括号内描述）。气泡大小代表了Wilcoxon检验得到的双尾P值。

这些图像和统计数据表明，研究人员能够通过特定的神经标记物识别并分析肿瘤中的神经群体，并探索这些神经群体的密度如何与患者的临床病理特征相关联。

六、多组织学类型上皮性卵巢癌的蛋白质组学特征及其临床意义

一作&通讯

角色	姓名	单位名称（中文）
第一作者	钱璐佳 (Liujia Qian)	西湖大学医学院，西湖大学未来产业研究中心，西湖大学生命科学与生物医学西湖实验室，杭州第一人民医院
通讯作者	朱逸 (Yi Zhu)	西湖大学医学院，西湖大学生命科学与生物医学西湖实验室
通讯作者	华月瑾 (Yuejin Hua)	浙江大学生命科学学院，生物系统稳态与保护教育部重点实验室
通讯作者	郑志国 (Zhiguo Zheng)	浙江省肿瘤医院，中国科学院杭州医学院（HIM）
通讯作者	郭天南 (Tiannan Guo)	西湖大学医学院，西湖大学生命科学与生物医学西湖实验室

文献概述

这篇文章通过全面的蛋白质组学分析，揭示了上皮性卵巢癌（Epithelial ovarian cancer, EOC）的分子特征，并发现了潜在的生物标志物，为早期诊断和治疗提供了新的策略。

研究背景：
- EOC 是女性生殖系统中致死率最高的癌症之一，通常因为早期难以检测、存在组织学异质性以及高复发率而难以治疗。
研究目的：
- 通过全面的蛋白质组学分析，旨在识别与肿瘤恶性程度相关的蛋白质，并探索它们作为潜在的循环生物标志物在血浆中的表达。
研究方法：
- 研究者对来自813名不同组织学类型和治疗方案的患者的卵巢组织和血浆样本进行了蛋白质组学分析，覆盖了10,715种蛋白质的表达。
研究发现：
- 确定了与肿瘤恶性程度相关的8种组织蛋白质，并在血浆中验证了它们作为潜在的循环生物标志物。
- 开发了针对12种组织蛋白质和7种血浆蛋白质的靶向蛋白质组学分析方法，并构建了机器学习模型来预测一年的复发风险。
研究意义：
- 这些发现有助于理解EOC的发病机制，并为早期检测和疾病监测提供了潜在的生物标志物。
- 通过整合突变分析和蛋白质组学数据，研究者发现了与复发耐药肿瘤中的DNA损伤相关的多种蛋白质，揭示了治疗抵抗性的分子机制。
研究结果：
- 研究提供了多组织学类型的EOC蛋白质组学图谱，为改进诊断和治疗策略提供了知识。
研究细节：
- 文章详细描述了研究的参与者、样本收集、蛋白质组学数据分析方法、以及如何通过机器学习模型预测疾病复发。
结论：
- 这项研究为EOC的蛋白质组学特征提供了全面的视角，并为开发诊断和预后工具提供了有价值的线索。

这篇文章提供了对EOC蛋白质组学特征的深入理解，并为未来的诊断和治疗策略提供了科学依据。

重点关注

Fig. 1 展示了中国上皮性卵巢癌（EOC）的蛋白质组学全景图。

A. 工作流程图：描述了如何生成中国EOC的蛋白质组学景观，包括患者数量（N）、样本数量（n）、数据依赖性采集（DDA）和数据非依赖性采集（DIA）。

B. 蛋白质数量量化：展示了四组（正常、良性、边缘性和癌症组织）的蛋白质数量。每组的箱形图由第一到第三四分位数构成，水平线表示中位数，须线表示1.5倍四分位距内的数据范围。

C. 无监督聚类：利用全局蛋白质组数据和t-SNE（t-分布随机邻域嵌入）技术对组织样本进行无监督聚类。不同的字母代表不同的组别：No代表正常组，Be代表良性组，Bo代表边缘性组，Pr代表PDS-EOC队列，Rl代表RLP-EOC队列，Na代表NACT-EOC队列。

D. 八种蛋白质簇：根据它们随着恶性程度增加而上升的趋势被选择出来。通过单向方差分析（One-Way ANOVA）和Benjamini-Hochberg（B-H）调整后的p值小于0.05来确定显著失调的蛋白质。使用mFuzz聚类进一步分类这些蛋白质，mFuzz的成员值小于0.4的蛋白质被排除。

E. 火山图：展示了PDS-EOC队列的癌症样本与正常组织之间的差异表达蛋白（DEPs）。彩色点代表B-H调整后的p值小于0.05且变化倍数大于2的蛋白质。B-H调整后的p值大于0.05的蛋白质在五个组别（正常、良性、边缘性、早期癌症和晚期癌症）中用橙色和绿色标记。实心红点放大以突出显示选定的DEPs。P.adj代表B-H调整后的p值。源数据提供为源数据文件。