AI三级淋巴结构·预测癌症预后和免疫疗法反应

小罗碎碎念

今天分享的这篇文章对于想从事三级淋巴结交叉研究等同学和老师来说，具有非常重要的参考价值，反正我写完这篇推文以后，觉得受益匪浅。

其中重点需要提醒大家关注的是——从2D组织切片计算的TLS面积已被验证为多种肿瘤类型的预后和免疫治疗响应的生物标志物，然而在小样本活检中，单2D组织切片可能无法完全再现整个TLS免疫学组成。

如果你们看过我这篇推文，肯定能很快想到一个研究方向——3D病理&TLS。

【医学AI·最新研究】哈佛医学院·告别切片局限：3D病理如何革新癌症预后

这里小小的吐槽一下，我的部分想法和行为已经很多次不被理解，所以我选择把我的观点直观呈现给大家。我相信，只要我持续努力，总能找到同频的人。

另外，我也会尽可能摆正自己的位置，毕竟目前只是研一，才刚踏入科研的大门，如果有哪里陷入误区了，还希望能有老师和同学及时指正，谢谢！！

文献概述

这篇文章是关于使用深度学习技术来分析组织学中的三级淋巴结构（Tertiary Lymphoid Structures, TLS），并预测癌症预后和免疫疗法反应的研究。

研究团队创建了一个包含匹配的多重免疫组化（mIHC）染色和H&E全切片图像（WSIs）的数据集，并开发了一个深度学习模型，用于自动分割TLS。该模型在内部测试集上达到了0.91的Dice系数和0.819的交并比（IoU），在外部验证集上分别达到了0.866的Dice系数和0.787的IoU。

研究还发现，TLS比例（定义为分割的TLS面积与总组织面积之比）与6140名患者的B淋巴细胞水平和与TLS形成相关的趋化因子CXCL13的表达呈正相关，这些患者覆盖了来自癌症基因组图谱（The Cancer Genome Atlas, TCGA）的16种肿瘤类型。整体生存的预后模型表明，将TLS比例与TNM分期结合在一起，显著提高了模型的区分能力，在15种TCGA肿瘤类型中的10种中，表现优于仅结合TNM分期的传统模型。

此外，当应用于未经治疗的肿瘤样本的活检时，较高的TLS比例预测了多个队列中积极的免疫疗法反应，包括食管鳞状细胞癌、非小细胞肺癌和胃腺癌的特定疗法。总之，这项基于深度学习的TLS分割和定量方法，突出了其在预测免疫疗法反应和通知癌症预后方面的潜力。

研究还讨论了TLS在肿瘤微环境中形成的机制仍然不清楚，但其存在与多种癌症中积极的免疫疗法反应相关联。最近的临床试验显示，晚期软组织肉瘤中TLS的存在预测了对pembrolizumab治疗的有利反应，强调了其作为预测免疫疗法临床效果的有价值生物标记物的潜力。此外，几项荟萃分析显示了TLS存在与胃肠道癌症和消化系统癌症中延长的整体生存之间的关联，进一步强调了TLS在多种癌症类型中的临床价值。

目前，分割和定量TLS的金标准是基于使用mIHC染色的T和B淋巴细胞的病理特征，但mIHC资源密集且并不普遍可用，限制了其临床应用。尽管有经验的病理学家可能在H&E染色的全切片图像（WSIs）上识别TLS，但对H&E染色单独基于分割TLS的方法的敏感性和准确性与mIHC确定的结果相比，尚未系统评估。

随着深度学习的出现，自动化组织病理学特征提取已成为可能，包括癌症分级、诊断、预后和预测免疫疗法反应、分子表达和基因改变等任务。一些算法甚至可以达到与病理学家相媲美的诊断准确性。

在这项工作中，研究团队创建了一个数据集，从匹配的mIHC和H&E WSIs中，开发了一种深度学习方法，从H&E WSIs中分割和计算TLS比例，并在癌症基因组图谱（TCGA）中验证了我们方法的准确性，并评估了TLS比例与多种癌症类型中的整体生存之间的关联。最后，TLS比例被评估用于预测不同队列中的免疫疗法反应。

交流群

欢迎大家来到【医学AI】交流群，本群设立的初衷是提供交流平台，方便大家后续课题合作。

一、引言

三级淋巴结构（Tertiary lymphoid structures，TLSs）是一种在肿瘤微环境中形成的、类似次级淋巴器官的免疫细胞有序聚集。尽管TLS在肿瘤微环境中的形成机制尚不明确，但其存在与多种癌症的免疫治疗响应率提高相关2,4-7。

近期一项临床试验显示，在晚期软组织肉瘤中TLS的存在预示着对派姆单抗治疗的良好反应，从而突显了TLS作为预测免疫治疗效果的有价值生物标志物的潜力8。此外，几项荟萃分析表明，TLS的存在与胃肠道癌症9和消化系统癌症10的总体生存期延长相关，进一步突出了TLS在多种癌症类型中的临床价值。

目前，分割和量化TLS的金标准是基于T和B淋巴细胞的复染免疫组化（multiplex immunohistochemistry，mIHC）染色病理特征11,12。然而，mIHC需要大量的资源，并不普遍可用，限制了其临床应用。虽然经验丰富的病理学家可能仅通过苏木精-伊红（hematoxylin and eosin，H&E）染色的全切片图像（whole-slide images，WSIs）来识别TLS13,14，但据我们所知，基于H&E染色单独分割TLS的这种方法与mIHC确定的结果相比，其敏感性和准确性尚未经过系统评估。

随着深度学习技术的发展，自动化提取组织病理学特征已变得可行，并应用于包括癌症分级15,16、诊断17-19、预后评估20-22、预测免疫治疗反应23,24、分子表达25,26和遗传改变27,28等多个任务。一些算法甚至能够达到与病理学家相媲美的诊断准确性29,30。

在本研究中，我们从匹配的mIHC和H&E WSIs中整理了一个数据集，并开发了一种深度学习方法，从H&E WSIs中分割并计算TLS比率（定义为分割的TLS面积除以组织面积）。

随后，我们在癌症基因组图谱（The Cancer Genome Atlas，TCGA）中验证了我们的方法的准确性，并评估了TLS比率与多种癌症类型的总体生存期的相关性。

最后，评估了TLS比率在预测不同队列的免疫治疗反应方面的作用。

二、结果

2-1：数据收集&TLS分割模型的开发

本研究首先基于60例食管鳞状细胞癌（ESCC）患者和5例非小细胞肺癌（NSCLC）患者的匹配多色免疫组化（mIHC）和苏木精-伊红（H&E）全切片图像（WSIs）构建了一个严格筛选的数据集。所有图像均在20倍放大（0.5 μm/像素）下获取。

TLS的识别基于CD3和CD20染色，并以此作为分割同一患者连续H&E染色切片上TLS的真实标签。这些H&E WSIs及其TLS分割被裁剪成22,497个等大小的图块（512 × 512像素，256 mm × 256 mm），并按7:1:2的比例随机分配到内部训练、验证和测试集（补充表2）。

接着，使用基于EfficientNet-b0的修改版编解码模型对这些图块进行训练，以分割H&E WSIs上的TLS。模型在内部测试集上取得了强大的分割性能，Dice系数为0.91（95%置信区间[CI]: 0.902–0.918），交并比（IoU）为0.819（95% CI: 0.811–0.827）。

模型在区分TLS方面表现出色，内部训练、验证和测试集的受试者操作特征（ROC）曲线下的面积（AUC）分别达到0.981（95% CI: 0.892–0.999）、0.965（95% CI: 0.873–0.998）和0.966（95% CI: 0.869–0.989）。模型预测准确性的评估通过分析每个图块预测和观察到的TLS面积之间的线性相关性进行。这些分析显示，所有三个内部数据集均呈现出强烈的相关性（所有rho >0.89），且具有高度显著的P值（所有P值 < 0.0001）。

此外，我们的分析没有发现不同样本之间存在显著的预测偏差，因为单个切片的IoU始终高于0.7。为了进一步验证模型的准确性，我们从TCGA收集了一个外部验证集，包括5例ESCC和10例NSCLC样本。

从这些H&E染色的WSIs中，我们生成了总共667个TLS分割的图块。模型在这个外部验证集上的表现依然稳健，Dice系数为0.866（95% CI: 0.855–0.877），IoU为0.787（95% CI: 0.773–0.802），AUC为0.934（95% CI: 0.838–0.968）。每个图块预测和实际的TLS面积之间观察到显著线性相关性（rho = 0.79，P值 < 0.0001）。此外，单个切片的IoU始终高于0.6。

总的来说，这些结果强调了我们的深度学习模型在TLS分割方面的稳健性和可靠性。

2-2：深度学习计算TLS比率的流程

在TLS分割完成后，我们采用深度学习流程来计算每个H&E WSIs的TLS比率。

Fig. 1 提供了这项研究设计和方法论的概览

I. 数据收集与预处理：

从65位被诊断为食管鳞状细胞癌（ESCC）或非小细胞肺癌（NSCLC）的患者那里收集数据。
获取了多重免疫组化（mIHC）和H&E染色的全切片图像（WSIs）。
基于mIHC WSIs对TLS（三级淋巴结构）进行分割，并将图像进一步裁剪成22,497个小块（tiles）。

II. TLS比例量化的深度学习方法：

使用深度学习方法自动分割TLS，并量化TLS比例。
TLS比例是通过将分割后的TLS面积除以总组织面积来计算的。

III. TLS比例与其他肿瘤类型的相关性评估：

利用来自癌症基因组图谱（TCGA）的16种癌症队列来评估TLS比例与分子标志物（B细胞水平和CXCL13表达）以及预后结果之间的潜在相关性。

IV. TLS比例与免疫疗法反应的关联性评估：

在一个ESCC队列、两个独立的NSCLC队列和一个胃腺癌（STAD）队列中，评估TLS比例与免疫疗法反应之间的关联性。

关键缩写解释：

TCGA: 癌症基因组图谱（The Cancer Genome Atlas）
ESCC: 食管鳞状细胞癌（esophageal squamous cell carcinoma）
NSCLC: 非小细胞肺癌（non-small cell lung cancer）
STAD: 胃腺癌（stomach adenocarcinoma）

通过这个流程，研究人员能够评估TLS在不同类型癌症中的作用，以及它们如何与免疫疗法的效果相关联。这种分析有助于在癌症治疗和预后评估中更好地理解TLS的重要性。

用于确定组织区域的分支采用了OpenCV Python包中的OTSU方法32，该方法能够从非组织背景中分割出组织区域。用于确定淋巴细胞计数的分支，特别设计用于排除小尺寸的TLSs，使用了公开可用的深度学习模型HoVer-Net33。该模型广泛用于从H&E WSIs中分割不同的细胞类型，尤其是淋巴细胞33。在分割的TLS区域内，只有淋巴细胞计数超过80的图块被保留用于TLS比率的计算。

2-3：在各种 TCGA 肿瘤类型中，估计的 TLS 比率与 B 淋巴细胞水平和 CXCL13 表达相关

为了评估我们的方法估计的TLS比率，我们首先分析了来自外部TCGA的74例ESCC和936例NSCLC患者。尽管这些患者没有mIHC数据，但他们有H&E WSIs以及RNA测序和DNA甲基化数据。我们从H&E WSIs中分割TLSs（补充图5），并估计了TLS比率，然后将它们与据报道与TLS相关的分子特征进行了比较（图1的第三部分）。

研究表明，大多数肿瘤浸润的B淋巴细胞在TLS内聚集6，B细胞的数量与TLS的数量和面积相关4。通过分析RNA测序数据中的基因表达水平和DNA甲基化模式，我们能够基于B细胞特异性基因的分子特征估计样本中的B细胞百分比。

Fig. 2 展示了来自癌症基因组图谱（TCGA）的不同类型的肿瘤中TLS（三级淋巴结构）比例与分子标志物之间的相关性评估。

具体来说，这个图由8个子图组成，分别展示了以下关系：

a. 和 b. TLS比例与ESCC和NSCLC中B淋巴细胞百分比的关联：

a 展示了ESCC患者中TLS比例与B淋巴细胞百分比之间的关系。
b 展示了NSCLC患者中TLS比例与B淋巴细胞百分比之间的关系。
这些子图可能是散点图，显示了两种测量值之间的相关性强度和方向。
百分比较高的B淋巴细胞可能与较高的TLS比例相关联，这表明在肿瘤微环境中，B细胞的存在与TLS的形成或存在有关。

c. 和 d. TLS比例与ESCC和NSCLC中CXCL13表达的关联：

c 和 d 分别展示了ESCC和NSCLC患者中TLS比例与CXCL13表达水平之间的关系。
CXCL13是一种与TLS形成有关的趋化因子，因此这些子图展示了TLS比例与CXCL13 mRNA表达量（以FPKM单位表示）之间的相关性。

e. 和 f. TLS比例与STAD和MESO中B淋巴细胞百分比的关联：

e 展示了STAD（胃腺癌）患者中TLS比例与B淋巴细胞百分比之间的关系。
f 展示了MESO（间皮瘤）患者中TLS比例与B淋巴细胞百分比之间的关系。
这些子图进一步扩展了TLS比例与B细胞存在之间的潜在相关性到其他类型的肿瘤。

g. 和 h. TLS比例与STAD和MESO中CXCL13表达的关联：

g 和 h 分别展示了STAD和MESO患者中TLS比例与CXCL13表达水平之间的关系。
类似于ESCC和NSCLC，这些子图展示了TLS比例与CXCL13表达之间的正相关性。

统计分析：

P值是通过双尾学生t检验计算得出的，用于评估TLS比例与B淋巴细胞百分比或CXCL13表达之间的差异是否具有统计学意义。
如果P值小于0.05，则认为相关性是统计显著的，表明观察到的相关性不太可能是由于随机变异造成的。

结论：

Fig. 2 提供了TLS比例与肿瘤微环境中的免疫细胞（B细胞）和免疫相关分子（CXCL13）表达之间的潜在联系的证据。
这些发现表明，TLS可能在肿瘤免疫反应中发挥重要作用，并且TLS比例可能是预测免疫治疗反应和癌症预后的有用生物标志物。

如预期的那样，估计的TLS比率与ESCC（rho = 0.46，P值 < 0.0001）（图2a）和NSCLC（rho = 0.26，P值 < 0.0001）（图2b）中的B淋巴细胞百分比显著相关。TLS比率也与CXCL13的表达相关，CXCL13是与TLS形成相关的趋化因子34，在ESCC（rho = 0.39，P值 = 0.0062）（图2c）和NSCLC（rho = 0.31，P值 < 0.0001）（图2d）中均观察到这种相关性。

由于TLS形态在癌症中相似，我们在14种额外的TCGA肿瘤类型中测试了我们的方法（补充图6）。同样，估计的TLS比率与这些癌症中的B细胞水平（图2e，f和补充图7）和CXCL13表达显著相关（图2g，h和补充图8），这表明我们的方法具有广泛适用性。

2-4：在 TCGA 的各种肿瘤类型中，较高的 TLS 比率与生存期延长有关

三级淋巴结构（TLSs）已被识别为多种肿瘤类型的潜在预后指标。因此，我们探讨了从H&E WSIs中估计的TLS比率与各种肿瘤类型总体生存期的关系。

单变量生存分析表明，在来自TCGA的ESCC（HR: 0.28; 95% CI: 0.090–0.84; P值 = 0.016）（图3a）和NSCLC（HR: 0.74; 95% CI: 0.57–0.95; P值 = 0.019）（图3b）中，升高的TLS比率与延长的总体生存期相关。

这一发现进一步在来自临床蛋白质组肿瘤分析联盟（CPTAC）的NSCLC病例中得到验证（HR: 0.40; 95% CI: 0.17-0.93; P值 = 0.028）（图3c）。

随后进行的多元分析，调整了年龄、性别和TNM分期（肿瘤浸润深度、淋巴结转移和远处转移），确认了TLS比率与增加的总体生存期的正相关关系在TCGA-ESCC中仍然具有统计学意义，而在TCGA-NSCLC和CPTAC-NSCLC中则具有边缘显著性（补充表4）。

在其他十四种TCGA肿瘤类型中，有十种在单变量分析中显示出显著的相关性（补充图9，补充表4）。在调整了可能的混杂因素后，头颈部鳞状细胞癌、前列腺腺癌、结肠和直肠癌的关联仍然显著，而在肝细胞肝癌、皮肤黑色素瘤、胰腺腺癌、睾丸生殖细胞瘤中的关联则具有边缘显著性（补充表4）。此外，Cox回归模型得到的符合指数（C-index）值和P值表明，将TLS比率与TNM分期结合起来，显著提高了模型的判别能力，优于仅包含TNM分期的模型，在15种TCGA癌症类型中的10种中表现如此（补充表5）。

综上所述，我们的发现强调了TLS比率作为多种实体瘤预后生物标志物的潜力。

2-5：在多个队列中，较高的 TLS 比率可预测免疫疗法的阳性反应

最后，我们评估了TLS比率作为预测免疫治疗临床响应的生物标志物（图1的第四部分）。

Fig. 4 展示了四个独立队列中TLS（三级淋巴结构）比例与免疫疗法反应之间的关联性评估。每个子图分别对应一个不同的癌症队列和治疗方法：

a. ESCC队列接受抗PD-1单药治疗：

在一项接受抗PD-1单药治疗的ESCC队列（n = 43，试验编号NCT02742935）中，响应者（33%，n = 14）的TLS比率显著高于非响应者（67%，n = 29）（P值 = 0.046）（图4a）。
由于采用的是抗PD-1单药治疗，因此这个分析可能集中在TLS比例与单一免疫检查点抑制剂治疗效果之间的关联。

b. NSCLC队列接受抗PD-1联合化疗：

此子图探讨了NSCLC（非小细胞肺癌）患者在接受抗PD-1治疗和化疗联合治疗时TLS比例与治疗效果之间的联系。
这可能表明TLS比例对于联合疗法效果的预测价值。

在两个接受抗PD-1加化疗（n = 56）或抗PD-1加阿帕替尼（一种抗血管生成剂）（n = 18）的NSCLC队列中，响应者的TLS比率也显著高于非响应者（P值分别为0.035和0.015）（图4b、c）。

c. NSCLC队列接受抗PD-1和阿帕替尼（apatinib）联合治疗：

阿帕替尼是一种抗血管生成药物，此子图分析了在这种联合治疗方案中TLS比例对治疗效果的预测作用。
这可能有助于了解血管生成抑制剂与免疫检查点抑制剂结合使用时TLS比例的相关性。

在一个接受抗PD-1和放化疗的STAD队列（n = 23）中，较高的TLS比率也与更好的免疫治疗响应相关（P值 = 0.047）（图4d）。

d. STAD队列接受抗PD-1和同步放化疗：

STAD（胃腺癌）患者接受了抗PD-1治疗和同步放化疗的组合疗法。
这个分析可能揭示了在这种综合治疗方法中TLS比例与治疗反应之间的关系。

统计分析：

P值是通过双尾Wilcoxon秩和检验计算得出的，这是一种非参数检验，用于评估两组之间的中位数差异是否具有统计学意义。
如果P值小于0.05，则认为TLS比例与免疫疗法反应之间的差异是统计显著的。

图表解读：

箱线图（Box plot）代表了数据的中位数和四分位数。
- 箱子的中线表示中位数。
- 箱子的上端和下端分别表示上四分位数和下四分位数。
- 须线（Whisker）表示1.5倍的四分位距，即数据分布的扩散程度。
箱线图之外的点可能表示异常值。

结论：

Fig. 4 提供了TLS比例作为生物标志物在不同癌症队列和不同治疗方案中预测免疫疗法反应的潜力的证据。
较高的TLS比例可能与更好的免疫疗法反应相关联，这可能有助于在临床实践中选择最有可能受益于特定治疗方案的患者。

这些发现强调了在癌症治疗决策中考虑肿瘤微环境特征的重要性，并可能有助于开发个性化的癌症治疗策略。

三、讨论

最近，针对从H&E图像中自动分割TLSs的深度学习模型已经得到了发展，包括肺癌35,36和胃肠道癌症13。

Wang等人将其应用扩展到定量TLS密度，并探索其在肺腺癌组织中的预后价值36。
Rijthoven等人引入了一种多分辨率策略来分割和量化TLSs，并将这些指标作为三种不同癌症类型的预后指标37，突显了计算模型在不同癌症背景下的通用性。

与这些仅依赖病理学家手动注释TLS而没有mIHC指导的研究不同，我们的研究利用了mIHC标记物——DAPI、CD3和CD20——来识别TLSs，从而减少了主观人类判断的影响。模型的稳健性通过内部和外部验证集进行了评估。

此外，我们开发了一个流程来计算TLS比率，从而实现了这一指标的自动化量化。通过在我们的流程中使用来自各种外部数据集的数千名患者，我们证明了估计的TLS比率与已建立的TLS相关分子特征（包括B细胞丰富度和CXCL13表达）显著相关，这表明我们的方法在多种癌症类型中分割和量化TLSs的可靠性。更重要的是，获得的TLS比率作为预测预后和免疫治疗响应的稳健泛癌生物标志物的潜力。

我们的方法的一个主要优势是使用了高质量的训练数据集，其中TLS分割在H&E图像上通过匹配的mIHC图像验证，并由经验丰富的病理学家手动审查。这种稳健的训练过程使得开发了一个适用于普遍H&E切片、无需依赖特殊检测的自动化、一致的模型，用于精确的TLS分割和量化。

尽管训练数据集包含六十例ESCC和五例NSCLC肿瘤组织，可能导致在ESCC中表现更好，但独立评估使用外部验证集表明，每个单独的NSCLC病例的IoU仍高于0.65（补充图4f），表明结果令人满意。当应用于其他癌症类型时，估计的TLS比率与各种TCGA肿瘤类型中建立的TLS生物学之间的强相关性提供了对其准确性的信心。

此外，这种标准化的分割方法也可能适用于癌症以外的其他环境，如自身免疫和感染性疾病。然而，进一步在ESCC和NSCLC以外的多种疾病中基准化模型的TLS分割性能与mIHC，以正式验证其更广泛的适用性将是宝贵的。

TLSs是特殊化的淋巴组织聚集，通常在慢性炎症反应后形成2。它们在结构和功能上类似于次级淋巴器官，支持生发中心反应，从而使B细胞激活并分化为浆细胞2。TLS的存在与多种癌症中有效的抗肿瘤免疫有关38。TLSs表示持续的免疫反应，并通常与更好的预后和免疫治疗结果相关2。

然而，目前系统地评估TLSs需要多重成像，这需要大量资源且并不广泛可用。我们的研究提供了证据，表明TLSs可以通过计算分析标准H&E组织病理学图像进行量化。因此，它可以立即应用于从丰富的存档样本中提取TLS的空间和定量数据。将计算得出的TLS指标与同一样本的多组学数据相结合，提供了一个揭示TLS生物学及其在组织抗肿瘤免疫中的功能分子机制的机会。

随着免疫治疗的发展，选择患者和理解耐药机制的生物标志物迫切需要。我们的数据补充了TLS比率作为易于评估的泛癌生物标志物，预测改善免疫治疗结果的日益增多的证据2,4,17。然而，TLS比率是否与其他已建立的生物标志物，如微卫星不稳定性39、PD-1/PD-L1表达40和肿瘤突变负担41相关，需要进一步研究。

此外，将我们的计算分析中成熟与不成熟的TLSs区分开来，可能会提供进一步的生物学见解，并可能更好地预测免疫治疗响应。成熟的TLSs可能比不成熟的TLSs更能促进更强的抗肿瘤免疫11,42。分离这些TLS亚型可能会改进TLS比率作为预测生物标志物的实用性。

此外，将关于分析队列的详细临床信息纳入，并评估计算得出的TLS指标与其他免疫治疗生物标志物之间的关系，可能会揭示TLS比率是否在预测免疫治疗结果时提供正交或协同价值。这可能使响应预测优于任何单一生物标志物。

我们的研究的另一个局限性是，TLSs具有复杂的3D结构43，而我们分析了单2D组织切片，这可能无法完全再现整个TLS免疫学组成，尤其是在小样本活检中。尽管这种方法上的限制是常见的，并影响许多类型的组织病理学分析，但2D组织病理学仍然是临床环境中的标准，因为它具有可访问性和可行性。

研究表明，某些2D图像特征可以作为其3D对应物的替代品44,45，从而提供了一种实用的方法，用于在实用性和准确性之间架起桥梁。事实上，从2D组织切片计算的TLS面积已被验证为多种肿瘤类型的预后和免疫治疗响应的生物标志物13,46。

为了减轻这个问题，更好地代表TLSs的3D特性，我们建议使用同一肿瘤的多非连续切片来量化并平均TLS比率。通过我们的基于深度学习的分析方法评估TLSs在多个标准组织病理学图像上，提供了一种实用的方法，可以更好地逼近实际的3D TLS分布，同时仍依赖于常规的组织病理学协议。进一步的多切片分析研究值得进行，以验证单切片量化相比的改进性能。此外，直接从2D组织切片测量TLSs的数量可能代表了另一个值得进一步研究的指标。

总的来说，我们提供了一个实用的基于深度学习的方法，用于从H&E组织病理学图像中提取临床上有用的见解。TLS比率提供了一个潜在的生物标志物，用于分层患者并揭示癌症生物学。使用标准护理样本进行免疫环境的定量空间分析可能开辟了改善免疫治疗的道路。

四、方法

4-1：患者和数据收集

用于TLS分割模型开发的数据显示，是从复旦大学附属中山医院的两组手术切除的肿瘤组织中收集的。

第一组包括60例ESCC患者，他们接受了1-4个周期的免疫治疗（每个周期28天），结合抗PD-1阻断和化疗。

第二组包括5例NSCLC患者，他们接受了2个周期的抗PD-1阻断和化疗，每个周期也持续28天。两组患者的临床特征详细信息见补充表1。

在评估TLS比率时，我们使用了公开可用的TCGA数据集。这个数据集包含6140名拥有H&E WSIs、伴随RNA测序和DNA甲基化数据的患者的数据。每种肿瘤类型的详细纳入和排除标准见补充图10。

研究检查了16种不同的肿瘤类型，以评估估计的TLS比率、分子特征和预后之间的相关性。用于生存分析的NSCLC病例来自临床蛋白质组肿瘤分析联盟（CPTAC），包括来自209名患者的960张H&E切片，其中包括CPTAC-LSCC47和CPTAC-LUAD48。

为了评估TLS比率作为免疫治疗响应预测的潜力，我们收集了来自四个独立队列的ESCC、NSCLC和STAD患者术前的数据。

ESCC队列

ESCC队列（n = 43）来自一项I期临床试验（NCT02742935）49,50。这些患者先前对化疗耐药或不能耐受，在中国医学科学院肿瘤医院接受了4个周期的治疗（每个周期28天），治疗药物为抗PD-1阻断剂（SHR-1210）。治疗从60mg开始，逐步增至200mg和400mg，直至疾病进展或出现无法忍受的副作用。免疫治疗前，肿瘤组织作为福尔马林固定石蜡包埋（FFPE）样本被获取。每个患者的临床响应根据实体肿瘤的反应评估标准（RECIST）v1.151进行评估。响应者定义为患者被诊断为完全反应或部分反应；非响应者定义为患者被诊断为稳定疾病或进展性疾病。

两个回顾性观察队列的NSCLC患者从中国医学科学院肿瘤医院的2021年12月至2023年1月收集。

第一个队列包括56名患者，他们接受了抗PD-1阻断和化疗的联合治疗。

第二个队列包括18名患者，他们接受了抗PD-1阻断（卡瑞利珠单抗）和一种抗血管生成剂（阿帕替尼）的联合治疗。

所有NSCLC患者都接受了两个周期的免疫治疗，每个周期持续28天，治疗后1个月进行手术切除肿瘤组织。在开始免疫治疗之前，FFPE肿瘤组织被获取并进行H&E染色。两组患者治疗后的临床响应由专家病理学家根据手术切除的肿瘤标本的病理学响应进行评估。响应者被定义为肿瘤减少超过90%的患者。

STAD队列

STAD队列（n = 23）的数据是从复旦大学附属中山医院进行的Neo-PLANET II期试验（NCT03631615）中 retrospectively获得的。详细纳入和排除标准见补充图11。

这项研究集中在免疫治疗上，结合抗PD-1与同期放化疗，用于治疗局部晚期胃或胃食管交界处腺癌。治疗方案包括每天两次给予抗PD-1阻断剂（卡培他滨）850 mg/m2，同时进行为期五周的同期放疗。在总治疗期为15周的21天周期中，使用奥沙利铂130 mg/m2（第1天）和卡培他滨1000 mg/m2（第1至14天）进行化疗。化疗在完成总15周治疗期后进行手术干预。治疗前，通过胃镜活检获取肿瘤标本，随后进行H&E染色。根据专家病理学家对手术切除肿瘤组织的评估，确定这些患者的治疗后临床响应。响应者在这个队列中被定义为残留肿瘤细胞计数低于10%的患者。这四个队列的详细概述见补充表3。

每位参与者均在参与研究前提供了知情书面同意。所有研究程序和协议均遵循《赫尔辛基宣言》的原则。该研究得到了中国医学科学院肿瘤医院（北京，中国）和复旦大学附属中山医院（上海，中国）伦理委员会的批准。

4-2：WSI收集

从60例ESCC患者和5例NSCLC患者的手术切除肿瘤组织中，处理成FFPE，并切成4 μm的切片。这些切片随后用兔抗人单克隆CD3抗体（ab16669，Abcam）和鼠抗人单克隆CD20抗体（14-0202-82，eBioscience）进行多重免疫组化（mIHC）染色。染色后，切片用荧光固定液处理，并在Vectra Polaris图像系统（Perkin Elmer）上以20×放大倍率（0.5 μm/像素）进行多光谱成像。成像通道包括Opal 520用于CD3、Opal 690用于CD20和DAPI用于核。这些捕捉的WSI随后使用Phenocart（Perkin Elmer）进行可视化。

对于H&E染色，连续的FFPE切片在二甲苯中脱蜡，并通过不同浓度的乙醇溶液重新水合。切片用Mayer’s hematoxylin染色5分钟，然后用流动的自来水洗涤5-10分钟。切片在1%的酸性酒精中短暂分化，并在0.2%的氨水中或Scott’s溶液中着色。接着应用2分钟的Eosin反染色。染色后，切片通过95%和无水酒精脱水，在二甲苯中透明，并用树脂固定剂封片。

为了提高深度学习模型在不同H&E染色条件下的稳健性，对随机选择的九名ESCC患者的连续切片进行了额外的H&E染色。这包括在Mayer’s hematoxylin染色时间和Eosin孵育的频率/持续时间上的变化。染色条件如下：

2张切片用Mayer’s hematoxylin染色8分钟，随后每个进行2分钟的Eosin孵育。
2张切片用Mayer’s hematoxylin染色3分钟，随后进行1分钟的Eosin孵育。
2张切片用Mayer’s hematoxylin染色3分钟，随后每个进行2分钟的Eosin孵育。
3张切片用Mayer’s hematoxylin染色8分钟，随后进行1分钟的Eosin孵育。

H&E染色的切片使用Perkin Elmer扫描仪以20×放大倍率（0.5 μm/像素）进行数字化。此外，22张H&E切片在20×放大倍率（0.5 μm/像素）下使用两种不同的扫描仪品牌（KFBIO和Olympus）进行成像（补充表2）。通常，数字化一张H&E WSI大约需要5分钟。

共生成了96张H&E WSI，与65张相应的mIHC WSI配对，用于TLS分割模型的开发。

4-3：内部数据集的WSI和TLS注释处理

在mIHC WSIs上进行的TLS分割使用Perkin Elmer的inForm图像分析软件进行。

简而言之，基于CD3和CD20染色的聚集淋巴细胞的930 μm × 697 μm的感兴趣区域（ROIs）被手动选择。inForm软件54用于细胞分割，每个标记的阳性阈值被设置并记录，以便后续分析。选择的ROI经过手动TLS分割，基于CD3和CD20染色，并用于建立至少包含50个CD3+或CD20+淋巴细胞的TLS分割算法。TLS分割算法完成后，剩余的ROI在inForm中批量处理，将它们分为TLS和非TLS区域。分割后的ROI然后映射回WSIs，以生成mIHC WSIs的全面TLS分割。

使用mIHC WSIs作为真实标签，我们在H&E WSIs上手动生成TLS分割掩码。分割后，两名经验丰富的病理学家（YQW，有12年经验；DXJ，有10年经验）使用他们的mIHC对应物对H&E WSIs上的TLS分割掩码进行了验证。使用OpenSlide Python包，以20×放大倍率对H&E WSIs及其相应的TLS分割进行裁剪，生成512 × 512像素的图块（256 μm × 256 μm），保留50%的重叠。只有TLS分割面积超过40%的图块被选中。从96张H&E WSIs中提取了总共22,497个此类图块及其相应的TLS分割（补充图1）。这些图块随后被随机分为内部训练、验证和测试集，比例为7:1:2，如补充表2中所详细描述。

为了使用深度学习模型分割TLS，我们保持了WSIs的放大倍数始终为20×。每个20×放大倍率的H&E WSI被裁剪成512 × 512像素的图块（无重叠）。对于40×放大倍率的WSIs，首先裁剪成1024 × 1024像素的图块，然后将其缩放到512 × 512像素的分辨率。

4-4：外部验证集的TLS注释

从TCGA中，我们随机选择了五张ESCC和十张NSCLC（包括五张肺腺癌和五张肺鳞状细胞癌）的H&E染色WSIs。这些WSIs的放大倍数要么是20×，要么是40×，并使用QuPath软件55手动标注了TLS的边界。

这些WSI上的TLS分割注释由两名具有十年以上专业经验的病理学家YQW和DXJ进行了验证。验证后，H&E WSIs及其TLS分割注释被裁剪成总共667个非重叠的图块，构成了外部验证集。图块的大小取决于它们的原始放大倍数，20×放大倍率的WSI图块大小为512 × 512像素，而40×放大倍率的WSI图块大小为1024 × 1024像素。

4-5：TLS分割模型的开发

TLSs由组织化的T和B淋巴细胞聚集而成。因此，一个理想的TLS分割算法应该能够捕捉到每个细胞周围的上下文，以描绘出一个全面的TLS区域。

尽管有许多用于医学图像分割的深度学习算法依赖于UNet类似的架构，但这些算法往往由于它们融合了低层次的文本信息和高层的语义信息而未能捕捉不同通道之间的像素相关性。为了解决这个问题，我们采用了之前描述的编码器-解码器模型31，该模型包含两个专门设计的模块来捕捉不同通道之间的上下文像素相关性。

简而言之，我们选择EfficientNet-b056作为TLS分割模型的主干。我们使用AdamW优化器57来更新网络参数，设置批大小为64，训练轮次为100，学习率和权重衰减均为1e-4，如前所述31。当验证集的损失在10个轮次内未下降时，应用了早期停止操作。内部训练和验证集仅用于超参数调优。我们调整模型参数以在验证集上实现最佳性能。一旦确定了最佳参数，内部测试集就被单独用于模型的最终评估。

TLS分割模型的性能通过内部训练、验证、测试集和外部验证集的ROC曲线的AUCs来评估（补充图2）。简而言之，我们将每张图像视为一个像素级的二元分类任务。被识别为TLS部分的像素被视为阳性病例，而那些不属于TLS的像素被视为阴性。我们将模型的预测概率转换为不同的阈值下的二进制结果，这使我们能够计算真实阳性率（TPR）和假阳性率（FPR），从而构建ROC曲线并计算AUC值。

在本研究中，预测概率高于0.5的像素被分类为TLS区域的一部分。计算交并比时，将预测TLS区域和真实TLS区域的重叠像素数除以两者结合的像素总数。计算Dice系数时，首先将交叠像素数加倍，然后将其除以预测和真实TLS区域中总像素数。用于计算TLS比率的TLS总面积是预测为属于TLS区域的像素数。

4-6：TLS比率的深度学习流程

深度学习流程包括三个独立的分支，如图1的第二部分所示。除了用于确定分割的TLS区域外，流程还包括两个分支，分别用于确定淋巴细胞计数和组织区域。

淋巴细胞的分割和量化使用公开可用的深度学习模型HoVer-Net33执行。该模型擅长从H&E WSIs中分割四种不同的细胞类型，即淋巴细胞、巨噬细胞、上皮细胞和中性粒细胞。我们采用了在MoNuSAC2020数据集58上预训练的模型来分割和计数淋巴细胞。我们使用分辨率不同的图块——512 × 512像素（20 ×放大倍率，0.5μm=像素）或1024 × 1024像素（40 ×放大倍率，0.25μm=像素）——并将它们调整到512 × 512的尺寸。然后，我们应用了一个没有重叠的滑动窗口方法，窗口大小为256 × 256像素，用于分割细胞实例。我们观察到分割的淋巴细胞和TLSs的共定位（补充图5和6），这强调了模型在检测淋巴细胞方面的准确性。通过汇总所有滑动窗口的结果，我们计算了每个图块中淋巴细胞的总量。

在确定组织区域的分支中，我们使用了OpenCV Python包中的OTSU方法32来从非组织背景中分割出组织区域。我们应用了各种过滤器，包括‘filter_blue_pen’、‘filter_green_pen’和‘filter_red_pen’，这些过滤器的参数来自公共代码库（https://github.com/deroneriksson/pythonwsi-preprocessing），以消除使用不同颜色笔所做的注释。用于计算TLS比率的组织区域是预测为属于组织区域的像素数。在组织区域占整个图块面积的10%以上（相当于26,214像素）的图块被保留并进一步处理，以计算TLS比率。对于每个WSI，TLS比率是通过将累积分割的TLS面积除以总分割的组织面积计算得出的。对于有多于一张H&E WSIs的受试者，TLS比率在多张WSIs之间进行平均。

4-7：估计B淋巴细胞的百分比

对于TCGA中的每位患者，B淋巴细胞的估计百分比是通过将整体白细胞分数与估计的B细胞比例相乘来确定的。

使用CIBERSORT，我们从RNA测序数据中估计了十二种主要免疫细胞的百分比，这些细胞包括幼稚和记忆B细胞、幼稚、休息和激活的记忆CD4 T细胞等59。估计的B细胞比例是幼稚、记忆B细胞和浆细胞的累积度量。整体白细胞分数，从DNA甲基化数据中导出，是从公开发布的数据60中获得的。

4-8：TCGA和CPTAC中TLS比率预后的含义

在TCGA中为每位患者估算了TLS比率后，我们利用survminer R包中的surv_cutpoint函数来定义最佳切点，将患者分为高或低TLS比率组，在每个癌症类型中61。这种分类基于最高的标准化对数秩统计量。进行了单变量和多变量Cox回归分析，以评估TLS比率类别对各种TCGA肿瘤类型总体生存的影响。多变量分析中只包括那些具有调整变量（包括性别（男性与女性）、年龄（60岁以上与60岁以下）和TNM分期）完整数据的病人（由于TCGA-SARC缺乏TNM分期，因此被排除在外）。对于CPTAC-NSCLC的单变量和多变量生存分析，我们使用从TCGA-NSCLC中导出的最佳TLS比率切点来将患者分为高或低TLS比率组。我们使用Wald检验导出95%置信区间。

在具有完整TNM分期数据的病人中，我们确定了各种TCGA肿瘤类型的C指数。对于这些病人，我们计算了三个Cox回归模型中的C指数，每个模型都包含不同的变量集。第一个模型仅基于TLS比率。第二个模型包括TNM分期，第三个模型结合了TNM分期和TLS比率。进行了似然比检验，以比较嵌套的Cox回归模型，特别是第二和第三个模型，以评估在这些肿瘤类型中添加TLS比率到传统TNM分期中的额外预后价值。

4-9：统计分析

用于计算P值的假设检验在相应的图例和表格中指定。深度学习模型的性能通过交并比、Dice系数和CI等指标进行评估。生存曲线使用Kaplan-Meier方法生成，并使用log-rank检验进行比较。为了计算TLS分割模型中的AUC，使用了500个bootstrap重复来计算95%置信区间。TCGA中使用Spearman的相关系数来关联TLS比率与分子特征（B淋巴细胞水平和CXCL13表达）。在双边分析中，P值低于0.05被视为显著。分析程序使用Python（版本3.7.12）、R（版本4.1.0）和SciPy包（版本1.7.3）执行。