综述：基于深度学习的表型药物挖掘--Deep learning in phenotypic drug discovery: a survey

论文：Deep learning in phenotypic drug discovery: a survey

GitHub： https://github.com/Boom5426/Awesome-Phenotypic-Drug-Discovery

摘要

高通量自动成像技术的出现，使得我们能够在单细胞分辨率下捕捉单细胞在不同扰动下的各种形态学特征。同时，深度学习在计算机视觉任务中的显著进展，大大提升了对大规模高通量图像的分析能力。这些技术进步促进了研究人员对化合物作用机制的理解、药物再利用、以及扰动下细胞形态动力学的表征，最终有助于新型治疗药物的开发。在本文中，我们首先总结了表型药物挖掘PDD任务中的多种模型学习的范式，包括弱监督表征学习和多模态学习等。其次，我们根据数据源对现有工作进行分类：1. Image-based PDD; 2. Image & Gene-based PDD; 3. Image & other-based PDD; 5. Image & Gene & other-based PDD. 此外，我们还统计了现有的图像数据集及其处理方法，包括最新的多通道图像处理算法。最后，我们对当前任务中仍然存在的挑战进行了总结，并讨论了后续工作的探索方向。本文文献统计在https://github.com/Boom5426/Awesome-Phenotypic-Drug-Discovery。

引言

表型药物挖掘（Phenotypic Drug Discovery, PDD）是一种通过观察和分析细胞或生物体在化合物作用下的表型变化来识别潜在药物的策略。与传统的靶向药物发现方法不同，PDD通过观察药物对细胞或生物体表型的影响来筛选潜在药物，从而能够发现具有新颖作用机制的药物。然而，PDD任务的复杂性和多样性对模型学习提出了更高的要求。随着高通量自动成像技术的发展，研究人员能够在单细胞分辨率下捕捉细胞在不同扰动条件下的形态学特征1。这些技术的进步为表型药物挖掘提供了丰富的数据资源。例如，Tang等人（2023）指出，高通量成像技术使得研究人员能够在单细胞水平上捕捉细胞形态的动态变化2。

与此同时，深度学习作为人工智能的一个分支，近年来在计算机视觉领域取得了显著的进展。深度学习算法，特别是卷积神经网络（Convolutional Neural Networks, CNNs），在处理和分析大规模图像数据方面表现出色3。例如，Askr等人（2022）综述了深度学习在药物挖掘中的应用，强调了其在处理大规模图像数据和自动提取复杂特征方面的优势4。这些技术的结合，使得研究人员能够更高效地分析高通量成像数据，从而推动表型药物挖掘的进展5。

将深度学习应用于表型药物挖掘具有重要意义。首先，深度学习能够自动提取图像中的复杂特征，减少了对人工特征工程的依赖，提高了分析效率6。其次，深度学习算法可以处理多模态数据，结合不同类型的生物信息，提供更全面的分析视角。例如，现代药物挖掘方法通常使用高通量成像来系统地研究大型化合物库对细胞的影响，通过自动筛选数千或数百万张图像来识别特定药物诱导的细胞表型。此外，通过深度学习，研究人员可以更好地理解化合物的作用机制，发现新的药物靶点，并促进药物再利用和新药开发。深度学习在表型药物挖掘中的应用还具有以下几个重要意义：

提高药物筛选效率：传统的药物筛选方法通常耗时且成本高昂，而深度学习算法能够快速处理和分析大量图像数据，从而显著提高药物筛选的效率。
增强预测准确性：深度学习模型能够捕捉图像中的细微变化，提供更高的预测准确性，从而提高药物挖掘的成功率。
促进个性化医疗：通过分析患者细胞在不同药物作用下的表型变化，深度学习可以帮助制定个性化的治疗方案，提高治疗效果。
推动新药开发：深度学习在表型药物挖掘中的应用，有助于发现新的药物靶点和作用机制，从而推动新药的开发。

本文旨在综述深度学习在表型药物挖掘中的应用。在本文中，我们首先总结了PDD任务中多种模型学习的范式，包括弱监督表征学习和多模态学习等。这些方法不仅能够有效地处理高维度和异质性数据，还能从中提取出有意义的特征表示。然后，我们还统计了现有的图像数据集及其处理方法，特别是最新的多通道图像处理算法。这些算法在提高图像数据质量和分析精度方面发挥了重要作用。最后，我们对当前PDD任务中仍然存在的挑战进行了总结，并讨论了后续工作的探索方向。我们希望本文的综述能够为未来的研究提供有价值的参考，并推动PDD领域的发展。

表型药物挖掘任务学习范式

弱监督表征学习

弱监督表征学习在表型药物挖掘中具有重要意义。通过利用弱标签或略带噪声的标签，模型可以学习到潜在的表型特征，从而提高药物筛选的效率和准确性。现有工作中，通常将影响细胞图像变化的处理（Treatment）或化合物标签视为弱标签，用于监督模型学习。该范式通常分为四个阶段：首先是图像预处理，包括亮度矫正和图像压缩，以及单细胞分割和特征提取。其次，将单细胞层次的特征聚合到well-level和Treatment-level，聚合过程中通常使用批次校正技术。然后，将每一个特征分类到对应的Treatment中，并基于表型特征的相似性进行聚类分析，以评估弱监督模型学习的性能。最后，考虑到弱监督学习的标签存在噪声，因此并未将模型预测结果直接用于下游分析，而是利用模型中后层的特征进行分析。

当前范式的工作主要由Broad Institute推进，他们贡献了很多开源数据以及benchmark。例如，文献《Weakly supervised learning of single-cell feature Embeddings》探讨了如何通过弱监督学习提取单细胞特征嵌入，这对于理解细胞在不同药物处理下的表型变化至关重要。此外，《Learning representations for image-based profiling of perturbations》展示了如何通过图像数据的表征学习来分析药物对细胞的影响，而《Evaluating batch correction methods for image-based cell profiling》则评估了不同批次校正方法在细胞图像分析中的应用。

多模态学习

多模态学习结合了多种数据源，如显微镜图像数据、基因表达数据和化学结构数据等，以全面理解药物的表型效应。通过整合不同模态的数据，模型可以捕捉到更丰富的表型特征，从而提高药物挖掘的准确性和效率。

文献《Connecting chemistry and biology through molecular descriptors》展示了如何通过分子描述符连接化学和生物学数据，而《Predicting compound activity from phenotypic profiles and chemical structures》则探讨了从表型特征和化学结构预测化合物活性的方法。进一步的研究，如《Merging bioactivity predictions from cell morphology and chemical fingerprint models using similarity to training data》，提出了基于细胞形态和化学指纹模型的生物活性预测方法。对比学习方法在多模态学习中的应用也得到了广泛关注。例如，文献《Contrastive learning of image- and structure-based representations in drug discovery》介绍了图像和结构表示的对比学习方法，而《Cross-modal graph contrastive learning with cellular images》则探讨了跨模态图对比学习在细胞图像中的应用。这些多模态学习方法得到的特征可以用于下游分析，如药物活性预测和表型效应分析，以评估模型的性能和实际应用价值。例如，文献《Molecule-Morphology Contrastive Pretraining for Transferable Molecular Representation》展示了对比学习在药物挖掘中的应用，而《CLOOB: modern Hopfield networks with InfoLOOB outperform CLIP》则探讨了现代Hopfield网络在细胞图像分析中的应用。通过多模态学习，研究人员可以更全面地理解药物的表型效应，从而加速药物挖掘过程，提高新药研发的成功率。

其它表征学习

除了最为常见的弱监督和多模态学习，其他表征学习方法也在表型药物挖掘中得到了广泛应用。强监督学习方法通过利用大量标注数据，训练模型进行精确的分类和预测。例如，文献《Classifying and segmenting microscopy images with deep multiple instance learning》展示了如何通过深度多实例学习对显微镜图像进行分类和分割，而《A multi-scale convolutional neural network for phenotyping high-content cellular image》则介绍了多尺度卷积神经网络在高通量细胞图像表型分析中的应用。这些方法通过构建复杂的神经网络模型，从大规模数据中提取出高维特征，提高了模型的准确性和鲁棒性。

无监督学习方法则不依赖于标注数据，通过自动发现数据中的潜在结构和模式来进行表征学习。例如，文献《Unsupervised phenotypic analysis of cellular images with multi-scale convolutional neural networks》展示了如何通过多尺度卷积神经网络对细胞图像进行无监督表型分析，而《Fully unsupervised deep mode of action learning for phenotyping high-content cellular images》则介绍了完全无监督的深度作用模式学习方法在高通量细胞图像表型分析中的应用。这些方法通过自动提取和分析数据中的特征，能够在没有人工标注的情况下，发现药物对细胞的潜在影响。

此外，迁移学习和自监督学习等方法也在表型药物挖掘中得到了应用。迁移学习通过将预训练模型应用于新的数据集，能够在数据有限的情况下提高模型的性能。例如，将在大规模图像数据集上预训练的模型应用于细胞图像分析，可以显著提高表型特征提取的效果《Phenotypic Profiling of High Throughput Imaging Screens with Generic Deep Convolutional Features、Democratized image analytics by visual programming through integration of deep models and small-scale machine learning》。自监督学习则通过设计预训练任务，让模型在没有标注数据的情况下学习有用的特征。例如，通过预测图像的旋转角度或填补图像中的缺失部分，模型可以学习到图像中的重要特征，从而提高下游任务的性能。

通过结合弱监督、强监督、无监督、迁移学习和自监督学习等多种表征学习方法，研究人员可以更全面地理解药物的表型效应，从而加速药物挖掘过程，提高新药研发的成功率。

图像数据及其处理方法

数据资源及其benchmark

在表型药物挖掘中，图像数据资源的质量和多样性至关重要。当前领域中最常用的数据集市Cell Painting Gallery，这主要是由Broad Institute领导收集的。The Cell Painting Gallery is a collection of image datasets created using the Cell Painting assay. The images of cells are captured by microscopy imaging, and reveal the response of various labeled cell components to whatever treatments are tested, which can include genetic perturbations, chemicals or drugs, or different cell types. 上述数据集发布的同时也提供了相应的benchmark and baseline。其中，《JUMP Cell Painting dataset: morphological impact of 136,000 chemical and genetic perturbations》提供了一个重要的数据集及其benchmark，包含了136,000种化学和基因扰动对细胞形态的影响。这些数据资源为表型分析提供了丰富的素材，支持了多种表征学习方法的应用。

多通道图像处理

用于PDD（药物表型发现）任务的数据集的核心是提供丰富的多通道图像。与传统的RGB图像不同，多通道图像包含多个独立的通道，每个通道都携带不同的信息。这些图像能够捕捉到细胞在不同条件下的多种表型特征。然而，传统模型在处理多通道信息时存在局限性，特别是当每个通道包含较为独立的信息时。

考虑到这一迫切需求，最近一些研究开始专注于多通道图像的处理方法。通过增强特征多样性，通道自适应视觉变换器（Vision Transformers）显著提升了图像处理的效果。例如，文献《Enhancing Feature Diversity Boosts Channel-Adaptive Vision Transformers》展示了如何通过增强特征多样性来提升通道自适应视觉变换器的性能。《CHAMMI: A benchmark for channel-adaptive models in microscopy imaging》则提供了一个通道自适应模型在显微镜成像中的基准。《Channel Vision Transformers: An Image Is Worth C x 16 x 16 Words》和《ChAda-ViT : Channel Adaptive Attention for Joint Representation Learning of Heterogeneous Microscopy Images》进一步探讨了通道自适应注意力机制在异构显微镜图像联合表征学习中的应用。这些研究表明，通过优化多通道图像处理技术，可以更有效地提取和利用图像中的丰富信息，从而提高药物表型发现的准确性和效率。

其他资源（综述、工具）

在表型药物挖掘领域，综述和工具的应用同样重要。文献《Morphological profiling for drug discovery in the era of deep learning》、《Artificial intelligence for high content imaging in drug discovery》综述了深度学习时代的形态学分析在药物挖掘中的应用，详细介绍了如何利用深度学习技术从大量显微镜图像中提取有用的形态学特征，从而加速药物发现过程。这些形态学特征不仅可以用于药物筛选，还可以帮助研究人员理解药物的作用机制。此外，文献探讨了人工智能在高通量成像中的应用，展示了如何通过机器学习和深度学习算法分析大量细胞图像，自动识别和分类不同的细胞状态和表型。《Deep learning in image-based phenotypic drug discovery》则进一步探讨了深度学习在基于图像的表型药物挖掘中的应用。该文献介绍了多种深度学习模型，如卷积神经网络（CNN）和生成对抗网络（GAN），如何在高通量成像数据中提取复杂的表型特征，并将这些特征用于药物筛选和表型分析。

在工具方面，CellProfiler 3.0 是一个用于生物图像处理的下一代工具，能够高效处理和分析生物图像。它提供了丰富的功能，如细胞分割、特征提取和数据可视化，帮助研究人员更好地理解和分析细胞图像。《Learning representations for image-based profiling of perturbations》介绍了如何学习图像表征以进行扰动分析，通过构建深度学习模型，自动提取图像中的重要特征，从而提高分析的准确性和效率。《Reproducible image-based profiling with Pycytominer》则提供了一个可重复的图像表征分析工具Pycytominer，该工具通过标准化的数据处理流程，确保了分析结果的可重复性和可靠性。

综上所述，通过结合综述文献和先进的工具，研究人员可以更全面地进行表型药物挖掘，从而加速新药研发过程，提高成功率。这些资源不仅提供了理论基础，还为实际操作提供了强有力的支持。

潜在的挑战和future work

图像数据的处理：现有的多通道图像处理算法通常采取将多通道图像分别采样然后学习的方式，使得模型处理多通道图像需要大量的计算资源。未来的研究可以探索更高效的算法，例如通过并行计算和优化数据结构来减少计算资源的消耗。此外，开发能够同时处理多个通道信息的模型也将是一个重要的研究方向。此外，不同实验室和设备可能会生成格式和质量各异的多通道图像数据，导致训练好的模型难以泛化到其他多通道图像中，因此未来需要考虑开发通用的处理方法和标准将有助于提高数据的可用性和一致性。

多模态数据：多模态学习虽然能够结合多种数据源，但在实际应用中仍面临数据异质性和对齐问题。不同模态的数据可能具有不同的分辨率、尺度和噪声水平，这对数据融合提出了挑战。未来的研究可以探索更为高效的多模态数据对齐和融合方法，如基于对比学习的跨模态对齐技术，以及利用生成对抗网络（Generative Adversarial Networks, GANs）进行数据增强和对齐。此外，如何有效地处理和融合大规模多模态数据，也是一个亟待解决的问题。分布式计算和边缘计算技术的引入，可能会为大规模多模态数据处理提供新的解决方案。

模型解释性和可解释性：随着深度学习模型在表型药物挖掘中的应用越来越广泛，模型的解释性和可解释性问题也变得愈发重要。现有的深度学习模型往往被视为“黑箱”，难以解释其内部机制和决策过程。未来的研究可以探索如何通过可解释的模型架构和技术，如注意力机制（Attention Mechanisms）和可解释的特征选择方法，提高模型的透明度和可解释性。此外，开发可视化工具和方法，帮助研究人员理解和解释模型的预测结果，也是一个重要的研究方向。

数据隐私和安全：在表型药物挖掘中，数据隐私和安全问题同样不容忽视。生物医学数据通常涉及敏感的个人信息，如何在保证数据隐私和安全的前提下，进行数据共享和模型训练，是一个重要的挑战。未来的研究可以探索隐私保护技术，如差分隐私（Differential Privacy）和联邦学习（Federated Learning），以在保护数据隐私的同时，提高模型的性能和泛化能力。

实际应用和转化：尽管表型药物挖掘在理论研究中取得了许多进展，但如何将这些研究成果转化为实际应用，仍然是一个重要的挑战。未来的研究可以加强与制药企业和临床研究机构的合作，推动表型药物挖掘技术在新药研发和临床应用中的实际应用。此外，开发用户友好的软件工具和平台，帮助研究人员和药物开发者更方便地使用这些技术，也是一个重要的研究方向。

Conclusion

综上所述，高通量自动成像技术和基于深度学习的计算机视觉任务的进展，极大地提升了药物表型发现（PDD）任务的效率和准确性。通过弱监督表征学习和多模态学习等范式，研究人员能够更好地理解化合物的作用机制，并推动药物再利用和新型治疗药物的开发。多通道图像处理技术的创新，特别是通道自适应视觉变换器的应用，进一步增强了对细胞形态特征的捕捉能力。然而，仍然存在数据复杂性、计算资源需求、模型可解释性等挑战。未来的研究应致力于开发更高效的算法、优化计算资源、提高模型的可解释性，并标准化数据处理流程，以推动PDD任务的进一步发展。通过解决这些挑战，深度学习技术将在药物表型发现中发挥越来越重要的作用，促进生物医学研究的进步。