人工智能在病理组学虚拟染色中的应用

小罗碎碎念

本期文献精析，分享的是一篇关于深度学习在虚拟染色技术中应用于组织学研究的综述。

角色	姓名	单位（中文）
第一作者	Leena Latonen	东芬兰大学（QS-552）生物医学研究所
通讯作者	Pekka Ruusuvuori	图尔库大学（QS-318）生物医学研究所

知识点补充：HE染色的原理

HE染色，即苏木精-伊红染色（Hematoxylin and Eosin staining），是组织学和病理学中最常用的染色技术之一。

苏木精（Hematoxylin）染色：
- 苏木精是一种碱性染料，能够与组织中的酸性物质结合。
- 在染色过程中，苏木精优先与细胞核中的DNA和RNA结合，因为这些区域具有较高的酸性磷酸基团。
- 结合后，细胞核会被染成蓝色或紫色。
伊红（Eosin）染色：
- 伊红是一种酸性染料，与组织中的碱性物质结合。
- 在苏木精染色之后，组织切片会被置于伊红溶液中，伊红与细胞质、细胞外基质以及其他细胞组分中的蛋白质结合。
- 结合后，这些区域会被染成红色。
染色原理：
- HE染色利用了酸碱结合的化学原理，通过两种染料的化学性质与组织切片中的不同组分发生特异性结合。
- 苏木精的亲和力使得它能够深入细胞核，与染色质结合，而伊红则主要附着在细胞质和细胞外基质上。
染色效果：
- 经过HE染色的组织切片，细胞核呈现蓝色或紫色，而细胞质和细胞外基质则呈现红色。
- 这种对比鲜明的染色效果有助于在显微镜下清晰地区分不同的细胞结构和组织形态。
应用：
- HE染色广泛应用于病理诊断，因为它可以显示细胞和组织的形态特征，帮助病理学家识别和评估病变。
- 除了诊断外，HE染色也用于研究细胞和组织的生物学变化。
染色过程：
- 组织切片固定后，首先进行脱脂和水化处理，以去除切片上的油脂并使其能够吸收染料。
- 然后切片在苏木精中染色，接着使用酸性溶液（如1%盐酸酒精）进行分化，以增强染色的对比度。
- 随后切片被洗涤并置于伊红溶液中进行染色。
- 最后，切片经过去水、透明和封片等步骤，以便于显微镜下的观察。

HE染色是一种简单、快速、成本效益高的技术，是医学和生物学研究中不可或缺的一部分。通过这种染色方法，可以观察到细胞的大小、形状、排列以及组织结构，对于疾病的诊断和研究具有重要意义。

知识点补充：免疫组化技术在病理切片中的应用

免疫组化技术（Immunohistochemistry，IHC）是一种在病理学中用于**检测组织切片中特定蛋白质（抗原）**的实验室方法。

这种技术利用了抗体的高度特异性，可以识别并结合到目标蛋白质的特定部分（表位）。

原理：
- 免疫组化基于抗原-抗体反应的原理。特定的抗体被用来识别并结合到组织中的特定蛋白质。
- 这些抗体可以是多克隆的或单克隆的，单克隆抗体因其高度特异性而常用于IHC。
步骤：
- 固定和处理：组织切片首先需要固定，以保持其形态和结构。固定剂如甲醛可以防止组织降解。
- 渗透：使用渗透剂帮助抗体进入组织。
- 封闭：使用封闭液（如正常血清）防止非特异性结合。
- 一抗孵育：将组织切片与特异性识别目标抗原的初级抗体孵育。
- 二抗孵育：使用标记有酶或荧光团的次级抗体与初级抗体结合。
- 显色或荧光检测：酶标记的抗体通过底物反应产生可视化的颜色变化，而荧光标记的抗体则在特定波长的光照射下发光。
检测方法：
- 酶标记：常用的酶有辣根过氧化物酶（HRP）和碱性磷酸酶（AP），它们可以催化底物产生颜色变化。
- 荧光标记：使用荧光显微镜检测荧光标记的抗体。
应用：
- 疾病诊断：IHC用于检测某些疾病相关的蛋白质，如肿瘤标志物、激素受体、感染因子等。
- 疾病分型：某些癌症的亚型可以通过特定蛋白质的表达模式来区分。
- 预后评估：某些蛋白质的表达水平与疾病的预后相关，如Ki-67与肿瘤的增殖活性有关。
- 治疗指导：特定蛋白质的表达可以指导靶向治疗，如HER2在乳腺癌治疗中的作用。
优势：
- 免疫组化可以在细胞和组织的自然形态下进行蛋白质的定位和定量分析。
- 提供了形态学和分子水平信息的直接关联。
挑战：
- 需要优化抗体的浓度和孵育条件以避免非特异性结合。
- 需要控制固定剂和处理步骤，以保持抗原的免疫原性和组织的形态。
发展：
- 多重免疫组化技术允许在同一张切片上同时检测多种蛋白质。
- 采用先进的显微镜技术和图像分析软件，可以提高检测的灵敏度和准确性。

免疫组化技术是病理学中不可或缺的工具，它为疾病的诊断、分类、预后评估和治疗提供了重要的分子信息。随着技术的进步，IHC的应用范围和准确性将进一步提高。

文献概述

组织学是分析生物组织结构的基础方法，在病理学和生物医学研究中扮演着关键角色。传统的组织学工作流程依赖于化学染色，这不仅消耗大量化学物质、水资源，而且耗时。深度学习技术的发展为组织学染色过程提供了数字化替代方案，这种技术被称为虚拟染色。虚拟染色通过训练神经网络从未染色的组织图像生成染色图像，或者从一个染色转移到另一个染色。

文章强调了虚拟染色的潜力，它可以提供更可持续、快速和成本效益高的组织学分析流程。它还允许从单个组织切片的图像生成多个染色图像的输出，从而实现虚拟多重分析和单细胞分辨率，这些在传统组织学评估中通常需要单独的组织切片。

然而，虚拟染色模型的开发仍处于早期阶段，需要大量的训练数据和严格的计算及组织学验证。文章还讨论了传统和虚拟组织学染色的基本概念，包括一般形态学染色、特殊化学染色和免疫染色。此外，还介绍了虚拟染色的计算方法，包括监督学习和无监督学习，以及用于虚拟染色的不同成像技术。

文章还讨论了虚拟染色在实际应用中的考虑因素，包括训练模型的成本、使用未标记组织的化学节省选项、以及如何评估虚拟染色的性能。评估虚拟染色的成功需要计算和组织学对模型性能的评估，包括像素级图像相似度的定量评估和组织学专家的目视检查。

最后，文章探讨了虚拟染色在组织学中的当前状态，特别是在替代化学染色方面。虽然最常见的化学染色（如H&E染色）已经被广泛研究，但更专业的染色可能揭示了未染色源图像中不包含的组织结构信息。文章还提出了一些未解决的问题，包括模型性能的要求、成像要求、可虚拟化的化学染色和抗体染色、定量评估指标，以及如何标准化模型建设和评估。

1、From chemical to virtual staining

组织学是组织和临床病理学研究中的一个关键工具

在多个科学、临床和商业领域中，通过组织病理学测量组织的改变，可涉及的应用领域包括：

临床疾病诊断和预后
治疗随访
药物开发
在医药和化工行业的研发过程中的毒理学评估
生物医学和药理学研究

数十年来，组织学一直依赖于化学染料的使用。组织样本本身对人眼来说相对透明且不具信息性，因此通过染色不同的化学基团和分子成分，来突出它们的对比度、特定特征和特性。然而，使用化学染料既昂贵，在资源有限的设置中也是不受欢迎的。

组织学染色的发展和使用历史跨越了数个世纪

尽管组织研究的一些方面随着显微镜技术的进步而得以进行更详细的分析，但组织学仍然主要使用基于光学显微镜的技术，这些技术成本低廉、易于获得，并且具有足够的分辨率，能够检测常规临床和研究使用中的组织特征和变化。

传统上，染色样本是通过光学显微镜逐个观察的。目前，数字工作流程使用切片扫描仪生成全切片图像（WSIs），使得可以通过计算机上的查看器程序进行观察。这为支持和完善组织病理学分析的其他数字解决方案打开了大门。基于深度学习的人工智能（AI）[1]的出现，已经在包括医学在内的各个领域革新了数据驱动的预测建模的计算方法[2]。组织学也不例外，基于深度学习的工具，用于基于数字切片的图像诊断，正在成为一个不断扩展的领域[3]。

最近的研究结果表明，基于深度学习的未染色组织的虚拟染色，使得基本形态学检查与化学染色相当[4,5]，其他工作也在扩展到组织学中的其他染色方式。在通过虚拟染色方法的开发而得以实现的当前工作流程中，对组织和化学染料的需求将减少，导致处理时间缩短，并可能提高准确性（图1）。

Figure 1 展示了虚拟染色技术如何为基于化学染色的传统组织学方法提供一种更可持续的替代方案。

传统组织学依赖化学染色：在传统的组织学中，需要使用化学染料对组织切片进行染色，以便在光学显微镜下观察其形态结构。这种染色过程是水和化学试剂消耗的主要来源。
虚拟染色技术：虚拟染色是一种新兴技术，它使用深度学习计算模型来模拟化学染色的效果。这种技术允许研究者在不实际使用化学染料的情况下，对未染色的组织切片进行分析。
AI（人工智能）的应用：深度学习作为人工智能的一个子集，在虚拟染色中扮演了重要角色。通过训练神经网络，AI能够生成与实际染色相似的图像。
环境效益：虚拟染色技术减少了化学染料的使用，从而减少了有害废物的产生。同时，它还减少了水的使用量，因为它不需要清洗和处理化学染料。
时间效率：由于省去了化学染色过程中的多个步骤，虚拟染色可以节省大量时间，加速组织学分析的流程。
H&E（苏木精-伊红染色）：H&E染色是组织学中最常用的染色方法，用于突出显示细胞核（蓝色）和细胞质以及细胞外基质（粉红色）。文中提到虚拟染色技术可以模拟H&E染色的效果。
图的创作工具：Figure 1 是使用 BioRender 这个工具创建的，BioRender 是一种常用于科学可视化和图形设计的软件。
可持续性：虚拟染色提供了一种更环保的替代方案，因为它减少了对环境的化学负担，并且有可能提高组织学分析的效率和准确性。

总结来说，Figure 1 强调了虚拟染色技术如何通过减少化学染料的使用、节约水资源和时间，为传统组织学染色方法提供了一种更可持续、高效的替代方案，并且展示了人工智能在生物医学研究中的应用潜力。

2、Basic concepts of traditional and virtual histological staining

组织学样本通过染色来突出组织的不同化学或生物学性质。由于薄的组织样本本身缺乏对比度，因此可以使用所谓的普通形态学染料来可视化整体组织结构——最常见且常规使用的此类染料是苏木精和伊红（H&E）。

除了普通形态学染料，其他化学染料，如 periodic acid–Schiff (PAS) 和 Masson’s trichrome (MTC)，是基于与组织中的特定化学基团的反应，从而突出特定的组织成分。

第三类染料是免疫染色，通常在临床中使用免疫组织化学（IHC）或免疫细胞化学，但在研究中特别通过免疫荧光染色。基于特定蛋白序列，抗原表位，组织中的特定蛋白通过抗体识别并通过酶形成的沉淀或荧光偶联物变得可见。由于免疫染色对个别蛋白或其亚型的高度特异性，其使用依赖于所研究组织中抗原表位的表达和合适抗体的可用性。

通常，每个组织样本使用多种染料以突出特定样本中所有必要的元素（图2）。

Figure 2 比较了传统的组织学工作流程与使用人工智能（AI）的现代组织学工作流程。

组织处理相同：无论是传统还是现代的工作流程，组织样本的处理步骤（如固定、包埋、切片）保持不变。
染色方法的变化：
- 传统染色：传统上，不同的组织学染色方法（如H&E染色、特殊染色和免疫组化染色）需要使用多个组织切片。每种染色技术都需要单独的切片，这不仅耗时而且增加了材料和资源的消耗。
- 虚拟染色：现代工作流程中，使用AI进行虚拟染色可以避免为每种染色方法准备多个组织切片。AI技术可以对同一未染色的组织切片生成多种不同的染色效果。
AI在虚拟染色中的作用：
- AI算法，特别是深度学习模型，被训练来识别和模拟传统染色技术的效果。
- 通过AI，可以从单一的未染色组织切片生成多个不同的染色图像，这称为AI翻译的染色。
替代传统显微镜检查：
- 传统上，每种染色都需要在光学显微镜下检查或通过扫描仪进行数字化，每次检查都需要一个单独的切片。
- 在现代工作流程中，AI可以处理单个组织的数字化图像，并生成多种染色效果，从而替代了对每个单独染色切片的检查。
免疫组化（IHC）：
- 图中的缩写IHC指的是免疫组化，这是一种常用于检测组织中特定蛋白质的染色技术。
- 通过AI，免疫组化染色也可以被虚拟化，减少了对特定抗体和显色底物的需求。
效率和可持续性：
- 虚拟染色方法提高了组织学分析的效率，减少了对化学试剂、水和时间的消耗。
- 这种方法更具有可持续性，因为它减少了实验室废物的产生和对环境的影响。
未来展望：
- 虚拟染色和AI的使用预示着组织学和病理学研究的未来，可能会带来更快速、更经济、更环保的诊断和研究方法。

总结来说，Figure 2 展示了AI如何改变传统的组织学工作流程，通过虚拟染色技术减少了对物理染色切片的需求，提高了效率，同时保持了诊断和研究的准确性。

实际上，每种化学染料都需要一块组织切片，因为大多数染料是永久性的，不能同时进行。因此，典型的做法是对每种染料使用相邻的组织切片，并比较不同切片上的输出。

尽管这对于许多应用来说已经足够，但它需要大量的组织材料，这可能是小样本（如针吸活检或稀少的研究样本）的限制因素。此外，当从同一组织切片读取多个信号时，它失去了单细胞分辨率的可能性。

对于组织学染色程序，样本通常经过固定并附着在玻璃片上（图2）。对于固体组织，这需要在固定后进行组织包埋，然后切割薄切片，最后进行染色。

临床诊断中，组织处理和组织学染色的实验室协议已经高度常规化，并且数十年来基本保持不变（尽管染色过程本身的自动化程度略有提高）。

组织学染色需要特定的实验室基础设施和经过专门培训的员工进行许多手工操作步骤。此外，许多染料含有有害化学品，因此会产生有害废物，并且染色协议消耗大量水资源。另外，该过程中的许多步骤需要手工劳动，成本高昂，并使工作人员暴露于化学品。

虚拟染色的原理是化学染色过程可以通过计算的方式部分或完全避免（图2）。这依赖于深度学习，其中算法被训练用于将没有所需染色的输入图像转换为虚拟染色的输出。在这个概念中，有多种选择作为输入和期望输出，范围从无标签、未染色的组织图像到有其他染色的组织图像，期望输出是同一输入图像的一个或多个虚拟染色版本。

同样，在输入图像的获取方式上也有多种选择，包括显微镜或光谱学的类型，不同成像技术的使用可以有助于输出图像的类型和准确性以及虚拟染色程序的执行性能。

开发一个可靠的虚拟染色模型通常涉及获取和处理大量数据以及仔细设计和训练神经网络。

开发无标签虚拟染色或染色到染色转换模型的典型工作流程包括：

图像数据收集
图像预处理
网络训练
计算验证
组织学验证
特定任务验证

对于旨在临床使用的解决方案，还需要进行临床验证。

3、Computational approaches for virtual staining

虚拟染色作为一种计算任务，对应于图像到图像的转换。这种转换是通过生成性神经网络模型从训练数据中学习得到的，其中目标图像是化学染色的组织切片图像，源图像是未染色组织切片的数字图像。

建模可以通过监督学习完成，假设源图像和目标图像之间像素级的空间对应关系，也可以通过无监督学习完成，其中源图像和目标图像之间的转换是从图像内容中学习得到的，而不假设像素级对应关系（图3）。

Figure 3 解释了无监督和有监督虚拟染色方法的计算概念，并通过两个并列的工作流程来展示这两种方法的不同步骤：

无监督虚拟染色方法（Unsupervised Virtual Staining）:

图像配对（A）：
- 使用相邻的组织切片来创建未染色-染色的图像对。
- 由于不要求图像对之间的像素级对应关系，因此可以使用不同的切片。
图像分割（C）：
- 将组织图像分割成较小的瓦片（tiles）。
- 这些瓦片被随机配对，用于训练无监督学习模型。
使用GAN模型（E）：
- 无监督方法通常采用多生成器和多鉴别器的生成对抗网络（GAN）模型。
- 例如，使用循环GAN（CycleGAN），它依赖于分布匹配损失函数，如循环一致性损失，来学习从未染色到染色的组织图像映射。

有监督虚拟染色方法（Supervised Virtual Staining）:

图像配对与配准（B）：
- 对同一组织切片在染色前后进行成像，创建具有像素级对应的未染色和染色的图像对。
- 通过图像配准技术确保染色前后图像的对齐。
图像分割与配对（D）：
- 将配准后的组织图像分割成较小的瓦片对。
- 在分割过程中保持瓦片对的对齐，确保像素级对应。
使用简化的GAN模型（F）：
- 有监督方法使用更简单的GAN变体，如条件GAN，它包含单个生成器（g）和鉴别器（d）。
- 除了对抗性训练外，还依赖于像素级损失函数来学习从未染色到染色的组织图像转换。

两种方法的比较：

数据要求：无监督方法不需要染色和未染色图像之间的精确对应，而有监督方法需要精确的图像配准来确保对应关系。
模型复杂性：无监督方法可能需要更复杂的模型，如循环GAN，而有监督方法可以使用更简单的条件GAN。
训练策略：无监督方法依赖于分布匹配，而有监督方法依赖于像素级的监督信号。
应用范围：无监督方法可能适用于缺乏精确配准数据的情况，而有监督方法在有足够配准数据时可能提供更准确的结果。

总结来说，Figure 3 展示了虚拟染色的两种计算方法：无监督和有监督，它们在图像配对、模型选择和训练策略上有所不同。无监督方法适用于没有精确对应关系的数据，而有监督方法则利用精确的图像配准来提高染色转换的准确性。

基于风格迁移的图像到图像转换方法，在没有直接空间对应的情况下，已经在虚拟染色中成功应用。最常用于此目的的方法是基于生成对抗网络（GAN）的CycleGAN（框2）。

在机器学习中，通常情况下，通过监督指导过程可以更详细地融入关于源图像和目标图像之间依赖关系的信息，并且有几项研究报道了使用监督方法（如Pix2pix）实现了更准确的转换（框3）。

监督方法所需的像素级空间对应关系需要将不同组织切片进行对齐，可能存在由于物理操作组织以及染色过程中的化学影响导致的图像变化，以及未染色和染色组织之间的固有外观差异。

已经发表了一些用于WSI层面上不同染色之间的多模态组织学图像配准的算法[9]，或者作为初步数据呈现[10]，但未染色和染色组织学图像之间的配准关注较少[11]。

最准确的对应关系可以通过训练算法同时使用同一切片的未染色和化学染色图像获得。对齐后，可以使用监督方法从未染色学习到虚拟染色的建模，初步数据表明，弱配准对无监督方法也有益处[12]。此外，一种有趣但计算上具有挑战性的方法是同时学习（染色）风格迁移和对齐[13]。

训练图像到图像转换模型的成功，与任何统计建模一样，强烈依赖于训练数据的质量和代表性。

组织学是一个复杂的目标，因为它含有丰富的空间变化，外观上的微妙差异可能反映了生物学意义上的重大差异。

为了实现从源图像到目标图像的成功转换，训练材料应该代表模型将应用和使用的材料中存在的所有组织学表型。训练数据集需要相对较大以成功建模，实际上意味着WSI图像对的顺序是数十到数百。

为高分辨率组织切片图像训练图像到图像转换模型在计算上是密集的。

组织学切片的高分辨率WSI过大，无法一次性应用，训练是通过将图像分割成小块来进行的，这导致了训练过程中数以百万计的图像瓦片，以提高内存效率。

利用大型训练数据集需要访问高效的计算资源，最好是高性能计算环境。训练后，使用模型进行实际转换的计算需求较低。这使得虚拟染色成为一个吸引人的技术，因为模型部署可以广泛进行。

使用训练后的模型进行推理应用于图像瓦片，根据预期用途，可能需要也可能不需要从瓦片块构建WSI。然而，在实际应用中，除非应用重叠、平均、瓦片混合或其他计算方法来减轻瓦片伪影，否则从瓦片块重建的虚拟染色WSI可能会受到瓦片级别伪影的影响，正如多个研究小组在已发表和初步数据中报告的那样[5,14–17]。

4、Practical considerations for virtual staining approaches

虚拟染色的目标之一是提供简化当前组织和成像程序、节省化学品和降低成本的方法。尽管训练有素的模型在这方面可能提供可行的解决方案，但训练阶段是昂贵的。

深度学习是一种数据密集型方法，用于训练稳定模型所需的数据量是相当大的。更详细的成像，如高放大率和专业技术，可能提供对组织成分和病理变异的更优识别和分离（框1），但目前最简单快速的成像技术是最可行的，既适用于获取训练阶段的数据，也适用于使用训练模型的快速简单成像。

使用未标记组织是虚拟染色中最节省化学品的选项。

使用这种方法训练模型是很有前景的，因为当使用未染色的、无标签的图像和一对化学染色的图像时，它们可以来自同一实际切片，从而确保图像之间像素级对应关系的高可能性，并允许使用监督模型。

然而，为此领域构建模型是繁琐的：实际上没有现有的数据集，因为组织学中以前没有广泛使用未染色成像。因此，所有用于训练新模型的材料都需要重新制作，涉及在材料、扫描、染色和重新扫描切片方面的重大投资。

由于亮场成像的广泛使用、可获取性和成本效益，使用可见光显微镜成像的未标记组织进行虚拟染色是未来广泛应用的最为方便、节省时间和化学品的选择。然而，目前大多数高通量切片扫描仪与扫描低对比度样本（如未染色的、无标签的组织切片）不兼容，这意味着扫描目前相对较慢。这可能会改进，因为现有的硬件技术可以针对扫描低对比度样本进行优化。

对于需要为每个样本单独切片的染色到染色的转换，有大量的存档临床材料，特别是来自与其他染色的相邻或接近切片的H&E染色切片，可以用于训练模型。

利用这些进行虚拟染色与使用无监督方法有关，但在有足够训练数据的情况下，可以实现性能良好的模型。除了亮场成像，还有几种其他技术已被用于无标签成像，作为虚拟染色的来源（框1）。

5、How to evaluate the performance of virtual staining

评估虚拟染色的成功需要从计算和病理学两个方面对模型性能进行评估。

作为计算任务的定量评估可以通过多种方式进行。像素级图像相似性的计算度量可能是评估性能的最直接方法。传统方法，包括均方误差（MSE）、峰值信噪比（PSNR）和结构相似性（SSIM）及其变体[18,19]，使得能够对对应关系进行定量评估，并且易于实施，而在深度生成网络的情况下，Frechet初始距离[20]等方法使得能够在潜在特征空间而不是直接像素级比较中测量相似性。

这些方法的弱点在于缺乏对图像中具有病理学意义属性的加权——优化像素级度量并不能保证输出结果的病理学满意度。因此，提出了更多具有生物医学意义的度量方法。例如，已经报道了基于图像导出特征的定量度量，如细胞或核在对象和像素级别的复现[5,16,21]。

病理学评估通过视觉检查进行，其中虚拟染色过程的相似性、适用性和可靠性由病理学专家（例如[5]）以及使用特定于任务的定量度量（如与当前使用协议相比的诊断度量准确性[22]）进行评估。

因为解释组织学样本的目的是随后的诊断任务或决策过程，所以在评估虚拟染色的质量和性能时，考虑这一任务非常重要。

病理学家通常使用模式识别方法来解释组织在多个尺度上的结构和外观。如果图像能够准确解释组织学，那么像素级伪影并不关键——而且如果图像不能用于解释组织学，那么高度的像素级准确性也没有意义。

因此，具有适当领域专业知识的病理学专家的视觉评估至关重要，因为临床病理学、兽医病理学和各种模型生物对评估任务都有不同的要求。

例如，在临床评估中，应该具体针对疾病、目标组织和任务来评估模型的适用性，以确保模型适用于预期用途，例如寻找感兴趣区域、确定亚型或分级病理学。

此外，如果虚拟染色图像将用于计算下游分析，如特征提取或基于学习的任务，应仔细验证模型输出的适用性。而且，只有通过视觉解释才能确定生成性AI的幻觉等视觉伪影的存在和程度[4,5]。

与虚拟染色的实施类似，如果染色转换是在WSI级别而不是在瓦片级别进行的，评估也可能有额外的层次。在瓦片级别复现真实的染色外观并不能保证在WSI级别的成功，因为瓦片伪影可能轻易区分虚拟染色和实际化学染色。另一个值得考虑的方面是确保瓦片包含足够大的支持区域，以便模型能够学习复现（诊断上）相关的组织学结构。

6、State of the art in replacing chemical stains for histology

6-1：H&E

H&E染色是常规用于显示组织形态的方法，将细胞核染成蓝色，细胞质和细胞外基质染成粉红色。

H&E是目前最常见的组织学染色，全球进行的染色中有80%是H&E染色，因此到目前为止，H&E染色作为输入和输出的虚拟染色研究最为常见。例如：

使用肺部组织的超光谱无标签图像产生了虚拟H&E染色，并且条件GAN和视觉分析显示该方法具有前景[24]。
使用人类皮肤、肾脏和肝脏组织的无标签定量相位图像生成了虚拟H&E，产生了高质量的染色图像，尽管输出对颗粒细节敏感[25]。
使用标准组织准备程序制备的病理学样本，在20倍放大率下成像，可以使用基于pix2pix的模型产生高质量的H&E虚拟染色[4,5]（图4）。

Figure 4 展示了虚拟染色技术在模拟苏木精-伊红（H&E）染色方面的应用实例。

组织样本：图示包括了来自小鼠（murine）的肾脏和前列腺组织的组织学图像。
图像类型：
- Ground truth（真实对照）：这是使用传统的化学H&E染色方法染色的组织切片图像，作为评估虚拟染色准确性的标准。
- Unstained（未染色）：使用标准明场显微镜成像的未染色组织图像。这些图像没有经过任何染色处理，呈现组织切片的自然状态。
- Virtually stained（虚拟染色）：应用Pix2Pix模型生成的H&E染色效果的图像。这些图像是通过深度学习算法从未染色的图像转换而来的。
Pix2Pix模型：
- Pix2Pix是一种条件生成对抗网络（cGAN），它通过成对的数据训练来学习从未染色图像到染色图像的转换。
- 在这个案例中，模型接受未染色的组织图像作为输入，并生成相应的H&E染色效果图像。
图像比较：
- 每行展示同一组织切片的不同图像：真实染色、未染色和虚拟染色图像。
- 这允许直观地比较虚拟染色技术与实际化学染色之间的相似度和差异。
尺度参考：
- 每行图像都标有尺度条（Scale bars），以提供图像中结构大小的参考。
技术应用：
- 通过展示虚拟染色与实际染色之间的相似性，Figure 4 证明了虚拟染色技术在重现传统H&E染色效果方面的潜力。
科学意义：
- 虚拟染色技术可以减少或替代化学染色的需求，降低成本，减少对环境的影响，并可能提高染色过程的速度。
潜在挑战：
- 尽管虚拟染色在图像上看起来很相似，但还需要进一步的验证来确保它们在生物学和病理学上与化学染色具有同等的诊断价值。

总结来说，Figure 4 通过对比展示了虚拟染色技术如何成功地模拟H&E染色效果，这为未来在组织学和病理学中减少对化学染色的依赖提供了可能性。

最近的研究已经证明了虚拟H&E染色图像的临床潜力：

Rana及其同事[22]使用非荧光成像和条件GAN的变体，在脱蜡的石蜡固定的前列腺活检图像上虚拟应用H&E染色。除了直接定量评估外，他们还测试了输出图像用于肿瘤分割，并构建了一个端到端的深度学习管道，用于在虚拟染色图像上自动检测和定位肿瘤[26]。
在另一项研究中，使用CycleGAN对卵巢癌组织的自荧光图像进行虚拟H&E染色，产生的结果在病理学家评估卵巢癌检测时准确率达到93%[27]。

6-2：Histological special stains

尽管H&E染色是最常见的组织学染色，但还有其他几种化学染色也用于各种疾病的科研和诊断。

PAS染色将碳水化合物（例如粘液和基底膜）染成紫色，将细胞核染成蓝色，用于帮助诊断基底膜疾病[28]。虚拟PAS染色的报告主要涉及使用肾脏组织进行染色到染色的转换。

一个级联深度神经网络（DNN）被用来虚拟地将针吸活检的自荧光图像转换为H&E，然后再转换为PAS[33]。

使用CycleGAN和StarGAN进行了四种不同染料（Jones H&E，Sirius red，CD68和CD34）的染色到染色转换，并用于分割任务[34]。

还有两项研究利用不同的IHC染色来产生PAS染色[35,36]。de Haan及其同事[23]报告了使用有监督学习和病理学家评估的针吸活检组织从H&E转换为PAS的染色转换。

6-3：Immunohistochemical stains

除了H&E和特殊组织学染色外，许多疾病的组织研究和诊断还依赖于特定蛋白质的存在或缺失，这些蛋白质可以通过基于抗体的免疫反应来识别。

抗体专门识别特定氨基酸组成和结构的抗原序列，因此只能识别特定的蛋白质或甚至是一种蛋白质亚型。在组织学中，基于抗体的检测通常通过免疫组织化学（IHC）进行，其中通过使用与抗体结合的酶学报告剂在组织中抗原所在的部位形成可见的沉淀物。

另一种方法，免疫荧光，利用荧光检测，需要兼容的特定显微镜进行检测，由于信号定位的分辨率更高，以及更容易进行多路复用（即同时评估多个抗原），因此在研究应用中很常见。

为基于抗体的技术设置虚拟染色比为化学染色更具有挑战性，因为染色的模式取决于每个蛋白质、组织和病理学的表达和定位。

数百种，甚至数千种IHC标记已在不同疾病的诊断中使用，而研究中的使用更为广泛。原则上，IHC需要最具体的工作来训练深度学习模型，而针对IHC模式的通用模型前景可能不如化学染色。因此，在使用IHC基础的虚拟染色模型时，应格外小心，避免超出训练数据和组织类型。

到目前为止，已报告的虚拟IHC染色包括使用人类表皮生长因子受体2（HER2）的IHC自荧光图像在乳腺癌组织中进行染色[37]。

HER2是一种用于乳腺癌亚型分类和指导诊断决策的生物标志物。使用条件生成对抗网络（GAN）进行虚拟染色，结果通过定量分析和三名病理学家的评估与化学染色样本进行了比较。

IHC最常见的目标之一是Ki-67，这是一种活跃细胞增殖的标志物，在有丝分裂的活跃阶段表达，并与大多数实体肿瘤的侵袭性相关[38]。

使用CycleGAN从神经内分泌肿瘤和乳腺癌组织的H&E染色进行了虚拟Ki-67染色试验[39]，以及在鼠肺组织上进行了试验[40]。

Ki-67的IHC还作为输入与CD8的IHC一起使用，通过CycleGAN在肝组织中的结直肠癌转移上产生了成纤维细胞激活蛋白和角蛋白（FAP-CK）染色[41]。

Zhang及其同事[40]报告了从H&E转换到几种不同的IHC组合的染色转换，包括乳腺癌组织中的ER/PR/HER2和鼠肺组织中的Ki-67/CC10/proSPC。

其他将化学染色转换为IHC的例子包括：

使用pix2pix将H&E转换为HER2的IHC[42]
使用SC-GAN（结构循环GAN）将H&E转换为结肠样本上的CDX2和CK818的IHC[43]
使用基于GAN的染色转换将PAS转换为肾脏组织图像上的Col3和CD31的IHC[44]

荧光染色也作为输入进行了虚拟IHC染色的试验；例如，Hoechst染色被转换为在透明细胞肾细胞癌样本上的CD3和CD8的IHC[45]。

7、Considerations and future potential of virtual staining in histology

7-1：Lack of standards in the development of virtual staining

考虑到可以用于虚拟染色的多种成像和计算方法，对解决方案的比较和评估将很快变得具有挑战性。

例如，对CycleGAN染色转移架构的轻微修改可以产生彼此之间以及与真实样本高度不同的结果，导致通过视觉检查或预训练模型评估得出误导性的结论[34]。就像生物医学中任何新的信息学领域一样，很快将需要对模型开发阶段的标准以及如何报告成像和任务的标准，以支持算法性能的适当比较。

对于虚拟染色产品可能适合的使用，可能还需要进一步标准化。

7-2：The role of open data in developing AI for virtual staining

除了方法论和计算能力的快速发展，大规模、开放获取的数据集也在推动基于AI的解决方案在尖端生物医学应用中的发展。

机器学习和AI社区长期以来一直使用基准数据集和挑战来吸引开发者在新兴主题上的兴趣，包括在组织病理学AI领域[10,46–48]。与虚拟染色相关的数据集仍然稀缺，只有少数公开发布的不染色组织WSI数据集[4,5]。

这为计算机科学家和机器学习社区更好地接触研究领域留下了空间。数据的可用性也与虚拟染色的标准化密切相关，因为非标准化的数据极大地限制了它们的使用。

7-3：Potential in multimodal research

由于不同虚拟染色模型的开发将允许从单个组织学图像产生几种不同的染色输出，虚拟染色将能够增强对组织组成、表型和标记表达的研究。

此外，将虚拟染色与空间分子测量相结合，例如对同一切片的空间转录组或蛋白质组分析，将能够实现前所未有的对组织在单细胞分辨率下的分析（图5）。

Figure 5 展示了多模态虚拟染色技术如何减少样本需求并允许虚拟多重分析（virtual multiplexing）。

传统工作流程：
- 在传统的组织学工作流程中，大多数染色和测量方法都需要各自独立的组织切片。
- 这意味着为了进行不同类型的染色或分析，需要多次切割同一组织样本，增加了样本消耗。
虚拟染色技术：
- 利用人工智能（AI），尤其是深度学习算法，可以从未染色的组织切片生成多种染色效果的图像。
- 这种方法可以减少对实际物理样本的需求，因为同一组织切片的数字化图像可以用于多种分析。
多模态分析：
- 虚拟染色技术不仅可以模拟化学染色，还可以模拟分子方法的代表性读数，例如空间转录组学（spatial transcriptomics）和空间蛋白质组学（spatial proteomics）。
- 这些技术通常需要复杂的实验流程和额外的样本制备，而虚拟染色可以提供这些方法的数字化模拟。
虚拟多重分析的优势：
- 通过AI生成的图像，可以在不增加额外样本消耗的情况下，对同一组织切片进行多重分析。
- 这有助于节省宝贵的生物样本，特别是在稀有或难以获取的样本情况下。
未来展望：
- 虚拟染色技术预示着组织学分析的未来发展，可能会减少对化学试剂的依赖，降低实验室成本，并加速研究进程。

总结来说，Figure 5 强调了虚拟染色技术如何通过AI减少对组织样本的需求，并允许在同一组织切片上进行多种染色和分子分析的虚拟模拟，这可能对未来的生物医学研究和临床实践产生重大影响。

未来，虚拟建模此类分子和空间测量是否成为可能，这将令人兴奋，因为它将只基于未染色的组织图像，实现多级别、高级的多路复用。

7-4：Potential clinical utility

在临床环境中，省略化学染色可以节省诊断决策过程中的时间。

由于在首次常规染色之后需要进行多种额外染色时，所需时间往往较长，因此能够在一张切片上进行多种虚拟染色方法的潜在时间节省和防止治疗决策延误是非常大的。在临床使用中，虚拟染色还可以通过使资源有限的环境中的组织学评估更加可行，从而对全球健康产生影响，尤其是在传统实验室工作流程中大量使用的水资源有限的环境中。

与任何方法一样，虚拟染色在临床上的广泛使用将需要对每个任务分别进行回顾性验证和前瞻性测试，然后才能进行产品许可。

该技术目前仍处于开发阶段，目前还没有接受用于临床使用的算法或正在进行试验。类似于其他在数字病理学中由AI驱动的工具，标准化是确保取代标准H&E和其他染料的临床实用性的关键挑战。

8、Concluding remarks

在组织学中，需要替代化学染色程序的方法。

基于深度学习的虚拟染色已经作为一个充满活力的研究领域和开发领域崭露头角，并有望为组织病理学分析提供更可持续、快速、准确和成本效益高的解决方案。

如何在考虑所需标准的情况下使这些方法快速、可靠和易于使用，将是一个未来几年的挑战，而且还有许多未解决的问题。

考虑到该领域早期结果的鼓舞人心，进一步的研究将需要确定虚拟染色在不同化学品、抗体、组织和扫描器环境中可以可靠地实施到何种程度。最常见的化学染色（H&E）在虚拟染色方面已经进行了最广泛的研究。在计算上预测这种染色成功表明，组织结构和形态的染色可以虚拟进行。

然而，更专业的染色可能会揭示未经染色的源图像中不包含的信息，这些信息可以使模型学习从源到目标的明确映射。尽管我们应该追求不针对特定组织的模型，但并非所有染料都可以为所有组织进行虚拟化，了解这些限制是进一步研究的重大未解决问题。

另一方面，使用基于AI的模型，有可能利用超出视觉解释所需之外的信息，这可能会导致解释的准确性更高。鉴于AI的快速发展，图像到图像转换以及从其他模式到图像的转换的进步将出现，为虚拟染色和其他AI启用的跨模式转换创造新的可能性。

到目前为止，许多虚拟染色工作都使用了相对较小的数据集，其中瓦片的数量可能在计算上是足够的，但生物或临床样本的数量很少，无法充分代表组织中的正常变异。因此，目前的进展应该被视为一系列原理验证研究，需要用更大和更多样化的数据集进行验证。

除了使用足够量的无偏见、真实生活中的数据之外，成功的关键还包括在模型构建和验证中涉及适当的领域专业知识。这些策略将解决使用偏见数据集的未成熟模型以及AI生成的伪像（如幻觉）等技术固有的局限性。应投资于创建足够大的开放存储库和数据集，以产生广泛可验证的结果并允许高效模型比较。国际标准化也是必要的，与医学中负责任使用AI的当前考虑紧密相连。

尽管临床领域需要高度标准化的、获得许可的可见光显微镜解决方案，但基础研究将受益于易于访问和广泛的模型，其中任何大小和分辨率的图像都可以使用。免费使用的在线解决方案或生物医学领域常用的图像分析平台的插件将促进开放研究。配备增强现实解决方案的移动应用和显微镜将简化组织学评估并提供技术访问，即使在远程和资源有限的设置中。

如果所需任务的算法在未经染色的组织上表现同样好，视觉表示最终可能变得不再必要。这可能会使端到端解决方案得以实现，直接在成像阶段提供诊断决策。如果技术能够为决策支持提供足够的信息，使用未经固定的组织（例如来自手术），虚拟染色甚至最终可能变得不再必要，或者仅作为视觉界面并提供解释工具。