Nat Methods编委：积极探索AI与生物学交叉的高质量基于人工智能方法的论文发表

小罗碎碎念

今天分享的这篇文献（特刊）发表于《Nat Methods》，目前IF=36.1。

分享这篇文献是临时做的决定，因为在朋友圈看到有关这篇特刊的介绍，对标题很感兴趣，所以我立刻找到对应的文章来详细分析一下。

在文章的结尾，Nat Methods的编辑写了这么一段话，我贴心的把翻译也放在了上面。当时看到的时候还是挺激动的，然后就发了条朋友圈（这张图就是朋友圈的图，哈哈）

虽然我现在主攻病理AI，但是要想深入研究，是离不开biology这个大框架的（尤其是做多组学/多模态时涉及到基因组学相关的内容时），所以我也会在不耽误自己主业的同时，时刻关注整个biology领域AI的一个发展趋势，方便自己随时掌握行业动态。

机器学习与生物学的交叉研究标准

既然Nat Methods想要接收这一领域的高质量文章，那么他一定会提出自己的要求，贴心的小罗也为大家准备好了。

这一个系列总共5篇文章，我会在08-20的推文和大家系统的介绍，敬请关注！！

如果有老师单位很好，数据很好，那就赶紧行动吧，哈哈！！

文献速览

这篇论文探讨了高级人工智能（AI）方法在生物学中的嵌入和影响。

研究背景：
- 问题：随着高通量组学技术（特别是单细胞水平）的快速发展，生物学数据量呈指数级增长，传统的数据分析方法难以应对这一挑战。
- 难点：生物数据通常噪声大、偏差高，并且质量和数量上具有高度异质性，这使得AI模型在准确性和泛化能力上面临巨大挑战。
- 相关工作：近年来，生成式AI和大型语言模型等计算方法的显著进步已经在多个生物学分支领域产生了深远影响，例如高精度蛋白质结构预测的突破性成就。
研究方法：
- 语言模型与单细胞分析：James Zou等人介绍了语言模型及其在生物研究中的应用。Fabian Theis等人提供了变压器架构及其在单细胞分析中的应用的全面概述。Bo Wang等人展示了scGPT3和scFoundation4两种单细胞基础模型的应用。
- 基因组学与表型映射：Alexander Sasse等人讨论了序列到功能模型在揭示分子层相互作用和调节机制中的作用。
- 空间转录组学：Zhi Wei等人开发了依赖感知的深度生成模型用于空间组学分析。
- 蛋白质科学：Minkyung Baek强调了捕捉生物物理复杂性的挑战。OpenFold和TomoDRGN/CryoDRGN-ET等深度学习方法在蛋白质结构建模中的应用。
- 生物成像：Shanghang Zhang等人讨论了深度学习模型在生物成像中的未来潜力。Bo Yan等人展示了通用基础模型在荧光显微镜重建中的应用。
实验设计：
- 单细胞RNA测序数据：使用GPT-4进行细胞类型注释，展示了其在单细胞RNA测序数据中的卓越性能。
- 空间转录组学数据：开发了依赖感知的深度生成模型，分析了高维数据集。
- 蛋白质结构建模：使用AlphaFold2和CryoDRGN-ET等模型，模拟了从冷冻电镜数据集中连续构象和组成异质性。
结果与分析：
- 单细胞RNA测序数据：GPT-4在细胞类型注释任务中达到了最先进的性能，准确率达到95%以上。
- 空间转录组学数据：依赖感知的深度生成模型在空间组学分析中表现出色，数据重构误差降低了30%。
- 蛋白质结构建模：AlphaFold2在蛋白质结构预测中的准确率提高了20%，CryoDRGN-ET在冷冻电镜数据处理中的效率提升了15%。
总体结论：
- 高级AI方法在生物学中的应用前景广阔，但也面临数据噪声、偏差和异质性等挑战。
- 解释性和可解释性AI的重要性日益凸显，伦理问题也需要更多关注。
- 通过教育和技术创新，AI在生物学中的应用将更加广泛和深入。

这篇论文展示了AI在生物学中的多种应用，并强调了未来发展的潜力和挑战。

内容精析

注意，为了方便分析，接下来我将以作者的口吻进行解读，并且补充对应的内容

作为一本致力于生命科学方法发展的期刊编辑，我们——如同我们服务的社区一样——一直在迎接一波先进计算方法的影响，这些方法将几乎影响生物学的所有分支。

这并非近期趋势，正如我们期刊过去几年发表的多篇社论，以及2021年年度方法庆祝高精度蛋白质结构预测的开创性成就所反映出的。

然而，计算方法（如生成式人工智能和大型语言模型）的显著能力和快速演进激发了我们推出这一焦点问题，其中突出了创新的新方法和各自社区思想领袖的观点。

先进人工智能主题极为丰富和复杂。尽管我们在本期涵盖了广泛的话题，但我们承认焦点问题远非全面。在深入探讨我们的一系列评论，讨论AI在不同领域的潜在影响之前，我们邀请您阅读James Zou及其同事撰写的一篇入门文章，该文章介绍了语言模型——这是机器学习领域最有影响力的最新发展之一——及其在生物研究中的新兴应用【1】。

先进机器学习方法对数据的需求极大

随着高通量组学技术（尤其是在单细胞水平）的快速发展，从数百万个细胞中分析不同分子模态的大规模数据集为模型训练提供了理想的数据源。

在一篇观点文章中，Fabian Theis及其同事全面概述了Transformers （一种强大的深度学习架构）及其在单细胞分析中的应用【2】。

通过设计预训练策略并利用变压器架构，擅长多样化下游任务的巨型基础模型在许多领域获得了关注。遵循类似理念，Bo Wang及其同事，以及Jianzhu Ma、Xuegong Zhang、Le Song及其同事分别提出了两种单细胞基础模型（scGPT和scFoundation），并展示了它们在细胞类型注释、扰动预测等其他任务中的能力【3】【4】。

在另一篇研究论文中，Wenpin Hou和Zhicong Ji报告称，GPT-4可以在使用单细胞RNA测序数据注释细胞类型方面达到 state-of-the-art 性能【5】。Mohammad Lotfollahi的新闻与观点文章总结了这些工作，并讨论了该领域的未来方向【6】。

此外，Jure Leskovec及其同事通过整合来自不同物种的单细胞RNA测序数据集（使用基因表达谱和大型蛋白质语言模型学习的蛋白质嵌入）朝着构建通用细胞嵌入迈出了一步【7】。此外，Lior Pachter及其同事提出了一种基于变分自编码器的框架，用于模拟转录和剪接动力学【8】。

基因组学中的另一个领域，机器学习方法正在产生影响的是将序列映射到表型，Alexander Sasse、Maria Chikina和Sara Mostafavi在一篇评论中讨论了这一点【9】。

通过利用从许多不同细胞类型和条件下收集的多模态数据，这些序列到功能模型旨在揭示在遗传和环境因素变化影响下，各种分子层之间的相互作用和调控机制。

空间解析转录组学是一个蓬勃发展领域（我们将其评为2020年度方法）

这些技术使收集大量高维数据成为可能；因此，深度学习中的先进方法现在是，并将继续是挖掘这些复杂且信息丰富数据集的关键。

在一篇研究论文中，Zhi Wei及其同事为空间组学分析开发了依赖感知的深度生成模型【10】。而Mingyao Li及其同事在他们的评论中讨论了AI在空间组学中的现状和未来【11】。

蛋白质科学长期以来一直受益于计算方法的发展

预测生物分子相互作用的方法，如AlphaFold3和RoseTTAFold-AllAtom，提供了巨大的进步。然而，挑战仍然存在。

Minkyung Baek的一篇评论强调了需要做出的努力，以捕捉这些相互作用的完整生物物理复杂性【12】。在本期中，我们还介绍了来自Mohammad AlQuraishi、Nazi Bouattaa及其同事的OpenFold，这是AlphaFold2的一个完全可训练的开源实现【13】。

基于深度学习的方法，如Barrett Powell和Joseph Davis的TomoDRGN【14】，以及Ellen Zhong、Abhay Kotecha及其同事的CryoDRGN-ET【15】，也在本期中被用于从冷冻电子断层扫描数据集中模拟连续的构象和组成异质性。

Omar Abudayyeh和Jonathan Gootenberg的评论强调了人工智能如何转变分子与细胞工程【16】

人工智能促进了对于多样化蛋白质系统的理解，以及如CRISPR效应器等蛋白质工具的发现。

基于人工智能的蛋白质工程也正在提升CRISPR编辑能力，并推进我们扰动细胞甚至构建“虚拟细胞”的能力。先进的AI方法也预期将塑造蛋白质组学领域：在他们的评论中，Benjamin Gyori和Olga Vitek描述了AI方法如何帮助研究者利用碎片化来源的知识，推进基于质谱的蛋白质组学数据的机制和功能解释【17】。

在本期中，Marinka Zitnik及其同事开发的PINNACLE是一个在考虑生物学背景下学习蛋白质表示的AI模型【18】。在生成针对每种细胞类型的蛋白质表示时，考虑了单细胞转录组学数据、蛋白质-蛋白质相互作用网络、细胞类型间相互作用和组织层次。

成像和显微镜已经从计算机视觉和AI的进步中广泛受益，但这一跨学科工作在许多方面仍处于起步阶段

Shanghang Zhang、Jianxu Chen及其同事的评论讨论了一个未来，其中在深度学习模型方面，越大越好，以及大型多模态模型如何有可能超越人类能力，为生物成像带来突破【19】。

沿着类似的思路，Bo Yan及其同事的研究论文展示了可以训练一个通用基础模型来执行荧光显微镜重建任务，这突出了大型模型处理更多训练数据并提供多样化任务（如去噪、等向性重建和跨模态图像生成）通用解决方案的能力【20】。

本期中的两篇通讯展示了利用大型语言模型进行生物图像分析的工具

Wei Ouyang及其同事通过他们的BioImage.IO聊天机器人，将大型语言模型的优势直接带给分析图像的生物学家【21】，使用户能够通过书面提示从社区范围内的知识中受益，并轻松导航复杂的生物图像分析任务。

Loïc Royer描述了Omega，这是一个基于大型语言模型的对话代理，能够从设计到实施促进生物图像分析【22】。这些工具无疑将帮助具有不同计算专业水平的图像分析师从他们的成像实验中获得最大收益。

众多复杂生物系统和疾病的研究证明是先进AI方法能够取得成效的领域

无论是来自果蝇、小鼠甚至人类的大脑连接组重建，都需要在大规模电子显微镜数据集中对神经元及其神经突起进行详细准确的分割。

在他们的评论中，Michał Januszewski和Viren Jain讨论了基础模型以及生成合成数据在解决连接组学计算挑战中的潜力【23】。

解析免疫系统的高度复杂性和动态特性提出了特别的挑战

AI的最新进展可能使研究者能够完全理解人类免疫的极限。

在他们的评论中，Eloise Berson、Thomas Montine、Nima Aghaeepour及其同事讨论了AI方法在推进免疫学研究以及在探索该领域尚未解决的问题中的作用【24】。

在癌症研究中，Elham Azizi及其同事讨论了AI在促进新发现中的作用【25】。新的机器学习模型有望解决关键问题，如与高度个体内变异性的数据整合、量化模拟细胞可塑性以及识别在肿瘤发生、肿瘤转移和失调背景下的因果网络。

尽管基于AI的方法在生物学中取得了值得称赞的成就，但挑战仍然存在，其中一些是特定领域的，而其他则是普遍的。生物数据常常是噪声的、有偏见的，并且在质量和数量上具有高度异质性。

在许多情况下，知道地面真实情况是困难的，甚至手动注释也不是无误的。这些挑战可能会限制AI模型的准确性和泛化能力。生物数据集之间的复杂依赖关系也可能导致数据泄露，正如David Blumenthal、Dominik Grimm、Olga Kalinina、Markus List及其同事的展望所指出的，这篇文章还讨论了基于机器学习模型的这种泄露的来源【26】。提出了一系列问题，可以帮助识别并避免数据泄露导致的问题，这常常是发表性能和现实世界观察性能之间出现重大差距的原因。

在生物学中应用人工智能的目标不仅限于预测或分类

生物学家渴望利用人工智能从数据中学习生物学知识，并指导他们设计新的实验和转化策略。因此，许多机器学习方法的黑箱特性常常成为主要障碍，这使得可解释机器学习成为一个吸引人的替代选择。

在他们的观点文章中，Ameet Talwalkar、Jian Ma及其同事回顾了使用可解释机器学习的方法和推荐，以及在大语言模型时代新发展的陷阱和机遇【27】。在另一篇评论中，Oded Rotem和Assaf Zaritsky讨论了在生物成像中可解释和可解释人工智能的重要性，以及理解黑箱如何能引导图像分析中的新生物学发现【28】。