Nat Methods编委:积极探索AI与生物学交叉的高质量基于人工智能方法的论文发表|顶刊速递·24-08-19

news2024/9/20 9:04:57

小罗碎碎念

今天分享的这篇文献(特刊)发表于《Nat Methods》,目前IF=36.1。

image-20240818103027590

分享这篇文献是临时做的决定,因为在朋友圈看到有关这篇特刊的介绍,对标题很感兴趣,所以我立刻找到对应的文章来详细分析一下。

在文章的结尾,Nat Methods的编辑写了这么一段话,我贴心的把翻译也放在了上面。当时看到的时候还是挺激动的,然后就发了条朋友圈(这张图就是朋友圈的图,哈哈)

image-20240818152106151

虽然我现在主攻病理AI,但是要想深入研究,是离不开biology这个大框架的(尤其是做多组学/多模态时涉及到基因组学相关的内容时),所以我也会在不耽误自己主业的同时,时刻关注整个biology领域AI的一个发展趋势,方便自己随时掌握行业动态。


机器学习与生物学的交叉研究标准

既然Nat Methods想要接收这一领域的高质量文章,那么他一定会提出自己的要求,贴心的小罗也为大家准备好了。

image-20240818153223155

这一个系列总共5篇文章,我会在08-20的推文和大家系统的介绍,敬请关注!!

如果有老师单位很好,数据很好,那就赶紧行动吧,哈哈!!


文献速览

这篇论文探讨了高级人工智能(AI)方法在生物学中的嵌入和影响。

  1. 研究背景

    • 问题:随着高通量组学技术(特别是单细胞水平)的快速发展,生物学数据量呈指数级增长,传统的数据分析方法难以应对这一挑战。
    • 难点生物数据通常噪声大、偏差高,并且质量和数量上具有高度异质性,这使得AI模型在准确性和泛化能力上面临巨大挑战
    • 相关工作:近年来,生成式AI和大型语言模型等计算方法的显著进步已经在多个生物学分支领域产生了深远影响,例如高精度蛋白质结构预测的突破性成就。
  2. 研究方法

    • 语言模型与单细胞分析:James Zou等人介绍了语言模型及其在生物研究中的应用。Fabian Theis等人提供了变压器架构及其在单细胞分析中的应用的全面概述。Bo Wang等人展示了scGPT3和scFoundation4两种单细胞基础模型的应用。
    • 基因组学与表型映射:Alexander Sasse等人讨论了序列到功能模型在揭示分子层相互作用和调节机制中的作用。
    • 空间转录组学:Zhi Wei等人开发了依赖感知的深度生成模型用于空间组学分析。
    • 蛋白质科学:Minkyung Baek强调了捕捉生物物理复杂性的挑战。OpenFold和TomoDRGN/CryoDRGN-ET等深度学习方法在蛋白质结构建模中的应用。
    • 生物成像:Shanghang Zhang等人讨论了深度学习模型在生物成像中的未来潜力。Bo Yan等人展示了通用基础模型在荧光显微镜重建中的应用。
  3. 实验设计

    • 单细胞RNA测序数据:使用GPT-4进行细胞类型注释,展示了其在单细胞RNA测序数据中的卓越性能。
    • 空间转录组学数据:开发了依赖感知的深度生成模型,分析了高维数据集。
    • 蛋白质结构建模:使用AlphaFold2和CryoDRGN-ET等模型,模拟了从冷冻电镜数据集中连续构象和组成异质性。
  4. 结果与分析

    • 单细胞RNA测序数据:GPT-4在细胞类型注释任务中达到了最先进的性能,准确率达到95%以上。
    • 空间转录组学数据:依赖感知的深度生成模型在空间组学分析中表现出色,数据重构误差降低了30%。
    • 蛋白质结构建模:AlphaFold2在蛋白质结构预测中的准确率提高了20%,CryoDRGN-ET在冷冻电镜数据处理中的效率提升了15%。
  5. 总体结论

    • 高级AI方法在生物学中的应用前景广阔,但也面临数据噪声、偏差和异质性等挑战。
    • 解释性和可解释性AI的重要性日益凸显,伦理问题也需要更多关注。
    • 通过教育和技术创新,AI在生物学中的应用将更加广泛和深入。

这篇论文展示了AI在生物学中的多种应用,并强调了未来发展的潜力和挑战。


内容精析

注意,为了方便分析,接下来我将以作者的口吻进行解读,并且补充对应的内容

作为一本致力于生命科学方法发展的期刊编辑,我们——如同我们服务的社区一样——一直在迎接一波先进计算方法的影响,这些方法将几乎影响生物学的所有分支。

这并非近期趋势,正如我们期刊过去几年发表的多篇社论,以及2021年年度方法庆祝高精度蛋白质结构预测的开创性成就所反映出的。

image-20240818104153493

然而,计算方法(如生成式人工智能和大型语言模型)的显著能力和快速演进激发了我们推出这一焦点问题,其中突出了创新的新方法和各自社区思想领袖的观点。

先进人工智能主题极为丰富和复杂。尽管我们在本期涵盖了广泛的话题,但我们承认焦点问题远非全面。在深入探讨我们的一系列评论,讨论AI在不同领域的潜在影响之前,我们邀请您阅读James Zou及其同事撰写的一篇入门文章,该文章介绍了语言模型——这是机器学习领域最有影响力的最新发展之一——及其在生物研究中的新兴应用【1】。


先进机器学习方法对数据的需求极大

随着高通量组学技术(尤其是在单细胞水平)的快速发展,从数百万个细胞中分析不同分子模态的大规模数据集为模型训练提供了理想的数据源。

在一篇观点文章中,Fabian Theis及其同事全面概述了Transformers (一种强大的深度学习架构)及其在单细胞分析中的应用【2】。

通过设计预训练策略并利用变压器架构,擅长多样化下游任务的巨型基础模型在许多领域获得了关注。遵循类似理念,Bo Wang及其同事,以及Jianzhu Ma、Xuegong Zhang、Le Song及其同事分别提出了两种单细胞基础模型(scGPT和scFoundation),并展示了它们在细胞类型注释、扰动预测等其他任务中的能力【3】【4】。

在另一篇研究论文中,Wenpin Hou和Zhicong Ji报告称,GPT-4可以在使用单细胞RNA测序数据注释细胞类型方面达到 state-of-the-art 性能【5】。Mohammad Lotfollahi的新闻与观点文章总结了这些工作,并讨论了该领域的未来方向【6】。

此外,Jure Leskovec及其同事通过整合来自不同物种的单细胞RNA测序数据集(使用基因表达谱和大型蛋白质语言模型学习的蛋白质嵌入)朝着构建通用细胞嵌入迈出了一步【7】。此外,Lior Pachter及其同事提出了一种基于变分自编码器的框架,用于模拟转录和剪接动力学【8】。


基因组学中的另一个领域,机器学习方法正在产生影响的是将序列映射到表型,Alexander Sasse、Maria Chikina和Sara Mostafavi在一篇评论中讨论了这一点【9】。

通过利用从许多不同细胞类型和条件下收集的多模态数据,这些序列到功能模型旨在揭示在遗传和环境因素变化影响下,各种分子层之间的相互作用和调控机制。


空间解析转录组学是一个蓬勃发展领域(我们将其评为2020年度方法)

这些技术使收集大量高维数据成为可能;因此,深度学习中的先进方法现在是,并将继续是挖掘这些复杂且信息丰富数据集的关键。

在一篇研究论文中,Zhi Wei及其同事为空间组学分析开发了依赖感知的深度生成模型【10】。而Mingyao Li及其同事在他们的评论中讨论了AI在空间组学中的现状和未来【11】。


蛋白质科学长期以来一直受益于计算方法的发展

预测生物分子相互作用的方法,如AlphaFold3和RoseTTAFold-AllAtom,提供了巨大的进步。然而,挑战仍然存在。

Minkyung Baek的一篇评论强调了需要做出的努力,以捕捉这些相互作用的完整生物物理复杂性【12】。在本期中,我们还介绍了来自Mohammad AlQuraishi、Nazi Bouattaa及其同事的OpenFold,这是AlphaFold2的一个完全可训练的开源实现【13】。

基于深度学习的方法,如Barrett Powell和Joseph Davis的TomoDRGN【14】,以及Ellen Zhong、Abhay Kotecha及其同事的CryoDRGN-ET【15】,也在本期中被用于从冷冻电子断层扫描数据集中模拟连续的构象和组成异质性


Omar Abudayyeh和Jonathan Gootenberg的评论强调了人工智能如何转变分子与细胞工程【16】

人工智能促进了对于多样化蛋白质系统的理解,以及如CRISPR效应器等蛋白质工具的发现。

基于人工智能的蛋白质工程也正在提升CRISPR编辑能力,并推进我们扰动细胞甚至构建“虚拟细胞”的能力。先进的AI方法也预期将塑造蛋白质组学领域:在他们的评论中,Benjamin Gyori和Olga Vitek描述了AI方法如何帮助研究者利用碎片化来源的知识,推进基于质谱的蛋白质组学数据的机制和功能解释【17】。

在本期中,Marinka Zitnik及其同事开发的PINNACLE是一个在考虑生物学背景下学习蛋白质表示的AI模型【18】。在生成针对每种细胞类型的蛋白质表示时,考虑了单细胞转录组学数据、蛋白质-蛋白质相互作用网络、细胞类型间相互作用和组织层次。


成像和显微镜已经从计算机视觉和AI的进步中广泛受益,但这一跨学科工作在许多方面仍处于起步阶段

Shanghang Zhang、Jianxu Chen及其同事的评论讨论了一个未来,其中在深度学习模型方面,越大越好,以及大型多模态模型如何有可能超越人类能力,为生物成像带来突破【19】。

沿着类似的思路,Bo Yan及其同事的研究论文展示了可以训练一个通用基础模型来执行荧光显微镜重建任务,这突出了大型模型处理更多训练数据并提供多样化任务(如去噪、等向性重建和跨模态图像生成)通用解决方案的能力【20】。


本期中的两篇通讯展示了利用大型语言模型进行生物图像分析的工具

Wei Ouyang及其同事通过他们的BioImage.IO聊天机器人,将大型语言模型的优势直接带给分析图像的生物学家【21】,使用户能够通过书面提示从社区范围内的知识中受益,并轻松导航复杂的生物图像分析任务。

Loïc Royer描述了Omega,这是一个基于大型语言模型的对话代理,能够从设计到实施促进生物图像分析【22】。这些工具无疑将帮助具有不同计算专业水平的图像分析师从他们的成像实验中获得最大收益。


众多复杂生物系统和疾病的研究证明是先进AI方法能够取得成效的领域

无论是来自果蝇、小鼠甚至人类的大脑连接组重建,都需要在大规模电子显微镜数据集中对神经元及其神经突起进行详细准确的分割。

在他们的评论中,Michał Januszewski和Viren Jain讨论了基础模型以及生成合成数据在解决连接组学计算挑战中的潜力【23】。


解析免疫系统的高度复杂性和动态特性提出了特别的挑战

AI的最新进展可能使研究者能够完全理解人类免疫的极限。

在他们的评论中,Eloise Berson、Thomas Montine、Nima Aghaeepour及其同事讨论了AI方法在推进免疫学研究以及在探索该领域尚未解决的问题中的作用【24】。

在癌症研究中,Elham Azizi及其同事讨论了AI在促进新发现中的作用【25】。新的机器学习模型有望解决关键问题,如与高度个体内变异性的数据整合、量化模拟细胞可塑性以及识别在肿瘤发生、肿瘤转移和失调背景下的因果网络。

尽管基于AI的方法在生物学中取得了值得称赞的成就,但挑战仍然存在,其中一些是特定领域的,而其他则是普遍的。生物数据常常是噪声的、有偏见的,并且在质量和数量上具有高度异质性

在许多情况下,知道地面真实情况是困难的,甚至手动注释也不是无误的。这些挑战可能会限制AI模型的准确性和泛化能力。生物数据集之间的复杂依赖关系也可能导致数据泄露,正如David Blumenthal、Dominik Grimm、Olga Kalinina、Markus List及其同事的展望所指出的,这篇文章还讨论了基于机器学习模型的这种泄露的来源【26】。提出了一系列问题,可以帮助识别并避免数据泄露导致的问题,这常常是发表性能和现实世界观察性能之间出现重大差距的原因。


在生物学中应用人工智能的目标不仅限于预测或分类

生物学家渴望利用人工智能从数据中学习生物学知识,并指导他们设计新的实验和转化策略。因此,许多机器学习方法的黑箱特性常常成为主要障碍,这使得可解释机器学习成为一个吸引人的替代选择。

在他们的观点文章中,Ameet Talwalkar、Jian Ma及其同事回顾了使用可解释机器学习的方法和推荐,以及在大语言模型时代新发展的陷阱和机遇【27】。在另一篇评论中,Oded Rotem和Assaf Zaritsky讨论了在生物成像中可解释和可解释人工智能的重要性,以及理解黑箱如何能引导图像分析中的新生物学发现【28】。


AI伦理

在一篇评论中,伦理学家Carina Prunkl讨论了使用人工智能进行科学研究的伦理含义,并强调关键的风险缓解策略将依赖于对人工智能相关方法的有效教育和治理【29】。

关于人工智能的教育需求越来越明显

美国国家科学基金会主任Sethuraman Panchanathan在 本月的技术特写“追求人工智能素养”中与Vivien Marx分享,他认为人工智能教育即素养【30】。

科学家们正在寻求更好的培训和教育机会,以在使用和构建人工智能工具时实现和发展这种素养。我们欢迎整个研究社区对这些重要话题进行更多的讨论和行动。

作为编辑,我们正在积极探讨如何改进高质量基于人工智能方法的论文发表。我们之前已经发布了由社区开发的机器学习报告指南,并建立了详细的政策,通过数据、模型和代码共享来促进透明度和可复现性。

随着人工智能与生物学的更紧密合作,我们相信不久将再次回到这个激动人心的主题。我们希望您享受阅读这一特刊。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2052178.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Leetcode JAVA刷刷站(35)搜索插入位置

一、题目概述 二、思路方向 为了实现这一功能,我们可以使用二分查找的变种来找到目标值或确定其应插入的位置。在二分查找过程中,我们不仅检查中间元素是否等于目标值,还根据比较结果更新搜索的上下界。如果目标值大于中间元素,则…

一文带你从源码中学习那些实用的位运算技巧

写在文章开头 众所周知位运算执行效率高于常规运算,通过不同的位运算搭配可以让我们写出简洁高效的代码表达式,所以本文从各大开源项目的源码中介绍一下各类运算技巧及其使用场景。 Hi,我是 sharkChili ,是个不断在硬核技术上作死的 java coder ,是 CSDN的博客专家 ,也是…

【体检】程序人生之健康检查,全身体检与预防疫苗,五大传染病普筛,基因检测等

程序员养生指南之 【体检】程序人生之健康检查,全身体检项目分类,五大传染病普筛,基因检测等 文章目录 一、全身体检与预防疫苗(年检)1、实验室检测:生化全套检查2、医技检查:辅助诊疗科室3、科…

【Python实现禁用任务管理器】

效果展示: 代码及解析: 提示:使用pyinstaller打包可以避免弹窗,食用更佳哦 提示(2):运行后要等待一段时间再关机哦 禁用代码: 要禁止任务管理器关闭 Python 程序,可以通过修改注册表来实现。以…

【OpenCV_python】凸包检测 轮廓特征 直方图均衡化 模板匹配 霍夫变换

凸包特征检测 凸包就是图像的最小外接多边形,通过图像的轮廓点,找到距离最远的两个点的直线,根据直线找到距离最远的下一个点,直到所有的点被包围在多边形内 读取图像二值化找图像的轮廓获取凸包点的坐标绘制凸包点 convexHull 获…

bilibiliDown-纯净B站视频解析提取工具

软件简介 bilibiliDown是一款简洁好用的B站视频下载工具,支持由UP主上传的单集,多集以及相关封面,弹幕,字幕,音乐,刮削等等,支持任意粒度批量组合,登录后支持到1080P,大…

Git Merge 实例教学:同步代码库与处理分支冲突的最佳实践

文章目录 前言一、git merge是什么?二、git merge基本用法1. 合并两个分支2. 合并时创建合并提交3. 快进合并(Fast-forward Merge)4. --abort参数5. --continue参数6. -X theirs参数 三、实际例子1. 更新仓库2. 将origin/main分支合并到当前分…

podman安装过程记录

最近注意到podman兼容docker镜像包,于是好奇心的驱动下,研究了一下 本来以为podman的desktop跟docker一样,最后发现podman桌面版是轻量级的,还需要安装podman的服务(当然,是支持直接通过它的桌面版来安装其…

Linux系统中用户、用户组及文件权限的常用知识汇总

Linux为多用户多任务的操作系统,文件权限管理十分重要,每一个文件都有很多属性,合理的权限设置,可以确保数据不被未授权的人员访问,同时也能提高系统安全性。 本文将介绍Linux系统中用户、用户组及文件权限的常用知识…

【C++二分查找 前缀和 】1292. 元素和小于等于阈值的正方形的最大边长

本文涉及的基础知识点 C二分查找 C算法:前缀和、前缀乘积、前缀异或的原理、源码及测试用例 包括课程视频 LeetCode1292. 元素和小于等于阈值的正方形的最大边长 给你一个大小为 m x n 的矩阵 mat 和一个整数阈值 threshold。 请你返回元素总和小于或等于阈值的正…

C++ 设计模式——策略模式

策略模式 策略模式主要组成部分例一:逐步重构并引入策略模式第一步:初始实现第二步:提取共性并实现策略接口第三步:实现具体策略类第四步:实现上下文类策略模式 UML 图策略模式的 UML 图解析 例二:逐步重构…

主成分分析SPSS步骤+Matlab程序

SPSS 导入数据 主成分分析 参数设置 选择要压缩的变量 输出结果 越陡说明信息差越大,反之信息差越小 导出数据 双击可以复制 粘贴到matlab 计算 Matlab clc,clear data readmatrix(例2.xlsx); %将数据保存在txt文件中 data zscore(data); %数据的标准化 …

使用java加载、调用onnx模型(二)

目录 1、摘要 2、实现过程 2.1、依赖 2.2、imread 2.3、contiguous函数 2.3.1、转化示例 2.3.3、核心代码 2.4、Flatten拉直 2.5、最终结果 3、完整代码 1、摘要 在上一篇文章中 使用java加载、调用onnx模型_onnx java-CSDN博客 发现使用Java加载调用模型的分类结…

计算组合数:从n个不同元素中,选k个元素的方式数量math.comb()

【小白从小学Python、C、Java】 【考研初试复试毕业设计】 【Python基础AI数据分析】 计算组合数: 从n个不同元素中, 选k个元素的方式数量 math.comb() 请问关于以下代码表述正确的选项是? import math print("【执行】math.comb(3, 2)…

线性代数证明:把行列式的某一行(列)的k倍加到另一行(列),行列式的值不变

线性代数证明 把行列式的某一行(列)的k倍加到另一行(列),行列式的值不变: 注意五角星的位置要用到另一条性质:若行列式的某一行(列)的元素都是两数之和,则可以…

Ajax笔记总结(Xmind格式):第一天

Xmind鸟瞰图: 简单文字总结: ajax知识总结: 网络的参考模型: 1.物理层:源设备到目的设备 底层传输就是比特流 2.数据链路层 进行电信号的处理 进行数据的分组 3.网路层 进行数据包的传递 进行不同网络的…

菱形继承和虚继承

菱形继承(Diamond Inheritance)是指在多重继承的情况下,某个类继承自两个类,而这两个类又都继承自同一个基类的情况。 在这个结构中,D 直接从 A 继承了 A 的所有特性,但通过 B 和 C 继承,这会导…

Avue实现动态查询与数据展示(附Demo)

目录 前言1. 基本知识2. Demo 前言 此框架为Avue-crud,推荐阅读: 【vue】avue-crud表单属性配置(表格以及列)Avue实现批量删除等功能(附Demo)Avue实现选择下拉框的多种方式Avue框架实现图表的基本知识 | …

凌晨突发!核心系统瘫痪,通过Signleton单例模式轻松搞定,但还是被裁员了...

🍅 作者简介:哪吒,CSDN2021博客之星亚军🏆、新星计划导师✌、博客专家💪 🍅 哪吒多年工作总结:Java学习路线总结,搬砖工逆袭Java架构师 🍅 技术交流:定期更新…

selenium底层原理详解

目录 1、selenium版本的演变 1.1、Selenium 1.x(Selenium RC时代) 1.2、Selenium 2.x(WebDriver整合时代) 1.3、Selenium 3.x 2、selenium原理说明 3、源码说明 3.1、启动webdriver服务建立连接 3.2、发送操作 1、seleni…