对话Nature子刊论文作者:DiG如何揭示蛋白质秘密

news2024/11/20 3:36:07

编者按:尽管当前利用人工智能技术预测生物分子结构的模型已经可以精确预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物结构,但对于科学家们来说仅了解分子的微观结构还远远不够,因为分子的宏观属性和功能往往取决于分子结构在平衡态下的分布。

用于分子结构平衡分布预测的深度学习框架 Distributional Graphormer(DiG)的最新论文,近期在《自然-机器智能》(Nature Machine Intelligence)杂志上发表。DiG 实现了对分子动态统计特性进行端到端的建模,在物质的微观分子结构和宏观物化属性之间建立了连接的桥梁。

为了进一步了解 DiG 这一 AI 预测蛋白质结构的最新方法和其背后的研究经历,我们与论文的共同一作、微软研究院科学智能中心实习生何纪言一起聊了聊。


蛋白质是生命的本质,理解蛋白质分子的功能对生物研究至关重要。而“结构决定功能”,因此生物学家往往使用冷冻电镜等手段观察蛋白质分子的结构。随着人工智能的快速发展,如今人们已经可以利用最先进的 AI 技术来预测蛋白质分子结构,以免去冷冻电镜昂贵而又耗时的过程。

然而,蛋白质并不是静止不动的刚体,它们无时无刻不在运动并有一定概率变换自己的结构。不管是冷冻电镜还是结构预测算法,都只能得到蛋白质的静态结构,这就好比用相机抓拍孩子奔跑的场景,你得到的只是孩子某一瞬间的静态形态。这张静态的“照片”对于理解蛋白质完整的功能远远不够,科学家们需要的是掌握蛋白结构的分布来理解其功能并推断出重要的宏观性质。

例如,新冠病毒 Omicron 的变种因其极强的感染性在众多变种中格外突出。但这种传染性的增强仅仅是因为在新冠病毒用于感染人体的刺突蛋白上有30余个位置的突变。这些突变并不会显著影响到刺突蛋白的结构,因此不管使用冷冻电镜还是最新的结构预测算法都无法解释其为何感染性变强。可是如果我们知道变异后刺突蛋白结构的分布,那么就会发现其不同结构出现的概率发生了变化——突变导致侵染人体的结构概率大大增加,也就解释了 Omicron 变种强感染性的原因。

由此可见,分布预测对于理解蛋白质分子的重要性,而这也是困扰科学家们数十年的难题。微软研究院科学智能中心于2023年发布了可用于预测分子结构平衡分布的深度学习框架 Distributional Graphormer (DIG),旨在使用最先进的生成式人工智能模型解决分子系统的分布预测问题。通过提供一种在统计上理解分子系统的实质性方法,DiG 为分子科学领域的研究开辟了新的机遇。相关论文已于近期发表在了《自然-机器智能》(Nature Machine Intelligence)杂志上。

DiG 的最新论文《Predicting equilibrium distributions for molecular systems with deep learning》发表在了自然杂志子刊《自然-机器智能》

DiG 的最新论文《Predicting equilibrium distributions for molecular systems with deep learning》发表在了自然杂志子刊《自然-机器智能》

DiG 最新论文:Predicting equilibrium distributions for molecular systems with deep learning

https://www.nature.com/articles/s42256-024-00837-3

DiG demo 页面:https://distributionalgraphormer.github.io/

下面,让我们通过与论文共同一作、微软研究院科学智能中心实习生何纪言的对话,一起来了解 DiG 背后的故事。

问:请介绍一下分子结构预测领域的现状及 DiG 的主要突破。

答:非常高兴我们能够在这个领域做出一些贡献,同时也很荣幸能够和很多优秀的工作一起推动这个领域的进步。与预测生物分子的静态三维结构不同,DiG 是预测蛋白质等分子体系的结构分布,也就是它们在均衡状态下的不同状态。这两个方面都是分子科学领域中的重要问题,也是相互补充的。

在 DiG 中,我们不仅建模了蛋白质分子体系,还处理了蛋白质-小分子配体体系、催化剂体系和材料体系等。这些分子体系有一个共同的特点,就是在稳定状态下系统也可能有着不同的结构状态。我们希望通过 DiG 帮助研究者们更好地理解蛋白质等分子体系的动态性和多样性,为未来的相关研究及应用提供一些新的思路。

问:你认为分子结构预测领域还有哪些重要问题没有解决?

答:目前利用人工智能来解决分子科学领域的问题(如蛋白质结构预测等)正处于加速发展的进程之中,能够准确预测生物分子结构的研究工作,让我们看到了这个领域非凡的潜力。

在我看来,人工智能加速科学发展,不仅仅需要成为辅助科研人员的好工具,还需要深入到科学探索的全流程中去,包括提问、假设、实验、总结等,才能让人类可以专注于更有创造性的工作,但目前这方面仍面临巨大的挑战。人工智能的发展将会从“工具”进化为研究人员的“助手”,结合计算、模拟和真实世界中的实验等手段,最终实现自动化、规模化的科学发现。同时,在这一过程中,业界和全社会还要保证其安全、可控、可靠,确保构建负责任的人工智能。未来,我们希望在这一方向上持续研究,贡献自己的力量。

问:很多模型架构都是将 Structural Module 改为 Diffusion Model。这其中的动机和原因是什么?

答:Diffusion Model 当前在视觉领域应用广泛,大家常说的各种文生图/视频(text to image/video)模型,如 DALL-E,Stable Diffusion,Midjourney,Sora 等大部分都是此类模型。我们选择生成式模型 Diffusion Model 作为 DiG 的建模方式,是在2022年底项目启动时进行了调研总结之后,结合分子系统的本质特点决定的。

举例来说,如果某个分子存在开启(open)和关闭(closed)两个状态的结构,采用生成式模型的建模可以很好地还原真实情况,而采用直接预测的方式则可能会由于平均效应,学习并预测出半开启(semi-open)这样的错误结构。

此外,于去年6月发布的 DiG 论文曾介绍道,我们巧妙地利用 Diffusion Model 与物理方程(如 Fokker-Planck 方程)之间的联系,提出了物理信息扩散预训练(Physics-Informed Diffusion Pre-training, PIDP) 等直接利用分子体系能量函数的预训练算法,从而去除了训练数据集中样本一定要符合稳态分布的限制,极大缓解了模型对数据的依赖。

微软研究院科学智能中心实习生何纪言

微软研究院科学智能中心实习生何纪言

问:在研究 DiG 过程中,你有哪些科研经验希望与大家分享?

答:首先,我更加感受到了数据的重要性。我们知道计算机科学中有一个经典的说法是“垃圾进,垃圾出(garbage in, garbage out)”,这其实在强调数据的重要性。我们在 DiG 的研究中也反复体会到了这一点。为了实现分子体系多样化的结构预测,训练数据的收集、组织方式都是至关重要的。除了来源于冷冻电镜等真实实验的高成本、高质量数据,我们也花了非常大的精力研究如何利用合成和模拟低成本、低质量数据,这些数据的使用是 DiG 能将分布预测做好的重要原因。

还有一点有趣的观察,是关于科学模型中的归纳偏置(inductive bias)问题。不同于图像和文本等领域,在物理世界中,许多已知的规律是一定满足的,对于这样的偏置,我们往往希望通过模型和算法设计使其被强制约束。但是在 DiG 早期的一些实验中,我们发现随着计算量的缩放(scaling),三维结构的等变性(equivariant)这样的偏置不需要人为设计,就能被模型自动学习到并且几乎不影响最终性能。这与 AlphaFold 2 和 AlphaFold 3 论文中的一些观察和消融实验也有相似性。这启发我们应该进一步思考缩放和偏置的关系,在未来的模型和算法中找到更好的设计,最终提高任务性能。

问:此次研究工作背后,你最大的感触是什么?

答:我觉得,多学科的团队合作是促成 DiG 成功的核心。在科学探索与人工智能这一交叉领域,作为人工智能背景的研究者,我和组里生物学、物理学、材料学等不同背景的老师、同学们深度交流合作,这一过程不仅让我学到了非常多的知识,通过不同领域的火花碰撞我们还能一起探索出真正有价值的科学问题,并提出创新、有效的解决方案。借此机会,我也想向实习期间为我的科研之路提供过帮助的老师和同学们表达衷心的感谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1798871.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

游戏盾之应用加速,何为应用加速

在数字化时代,用户对于应用程序的防护要求以及速度和性能要求越来越高。为了满足用户的期望并提高业务效率,应用加速成为了不可忽视的关键。 应用加速是新一代的智能分布式云接入系统,采用创新级SD-WAN跨域技术,针对高防机房痛点进…

ES 8的向量检索性能调优实践

前言 ES的官方实验室曾发布过一篇博客,介绍了使ES向量检索性能获得显著提升的技术要点与展望: 多线程搜索能力的利用:Lucene 的分段架构允许实现多线程搜索能力。Elasticsearch 通过同时搜索多个段来提高性能,使用所有可用的 CPU 核心的计算能力显著减少了单个搜索的延迟。…

网易云音乐格式在线转换

应用分享:众所周知网易云下载的格式为 .NCM,只能在网易云音乐里播放。 今天提供在线转换为MP3格式 NCM TO MP3,无需安装,转换后就能在任意播放器使用。 使用地址: https://ncm.worthsee.com/ 网络研究观 数据泄露…

【NOIP普及组】税收与补贴问题

【NOIP普及组】税收与补贴问题 💖The Begin💖点点关注,收藏不迷路💖 每样商品的价格越低,其销量就会相应增大。现已知某种商品的成本及其在若干价位上的销量(产品不会低于成本销售),…

Win10 Edge提示兼容性问题打不开|解决浏览器兼容性问题

Edge有时候会与某些安全软件不兼容,导致报错 报错代码:STATUS_INVALID_IMAGE_HASH 解决Edge浏览器兼容性问题方法/步骤: 1、按 Win R 组合键,打开运行,并输入 regedit 命令,确定或回车,可以…

Linux Shell脚本编写指南

大家好,在当今快节奏的科技时代,自动化和高效的工作流程对于个人和组织来说变得愈发重要。而Shell脚本编写作为一种强大且广泛应用的技能,成为了实现自动化任务和系统管理的利器。通过编写Shell脚本,我们可以将繁琐的重复任务自动…

JavaScript的核心语法

JavaScript JavaScript:JavaScript的组成:核心语法:Hello:变量:JS的基本数据类型:特殊点: 数组:流程控制语句:函数:函数的重载:函数的递归:预定义…

算法:226. 翻转二叉树

给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 示例 1: 输入:root [4,2,7,1,3,6,9] 输出:[4,7,2,9,6,3,1]示例 2: 输入:root [2,1,3] 输出:[2,3,1]示例 3&#x…

算法学习笔记(7.4)-贪心算法(区间调度问题)

目录 ##什么是区间调度问题 ##贪心解法 ##具体的例题示例讲解 ##452. 用最少数量的箭引爆气球 - 力扣(LeetCode) ##435. 无重叠区间 - 力扣(LeetCode) ##56. 合并区间 - 力扣(LeetCode) ##什么是区间调…

学习周报:文献阅读+Fluent案例+Fluent相关算法学习

目录 摘要 Abstract 文献阅读:求解正逆运动波问题的物理信息神经网络 文献摘要 讨论|结论 理论基础 KWM(运动波动方程) Hard constraint (硬约束方式) 具有重新分布的搭配点的PINN 具有停止梯度的分数阶方程 …

解决Nginx出现An error occurred问题

每个人遇到Nginx的An error occurred情况可能都不一样(见图1),Nginx造成该错误的原因: 1. 我在配置域名解析成IP时,没有把所有解析配置都修改,见图2:解析 *.hanxiaozhang.xyz 配置的是新IP地…

4.通用编程概念

目录 一、变量与常量1.1 变量1.2 常量 二、遮蔽三、数据类型3.1 标量类型1. 整型2. 浮点型3. 布尔类型4.字符类型 3.2 复合类型1. 元组2. 数组 四、函数五、语句和表达式六、函数的返回值 一、变量与常量 1.1 变量 在Rust中默认的变量是不可变的,如果修改其值会导致…

汽车EDI——Volvo EDI 项目案例

项目背景 作为Volvo的长期合作伙伴,C公司收到Volvo的EDI对接邀请,需要实现EDI对接。C公司将会面临哪些挑战?又应该相应地选择何种EDI解决方案呢? 汽车行业强调供需双方的高效协同(比如研发设计、生产计划、物流信息等…

BIOS主板(非UEFI)安装fedora40的方法

BIOS主板(非UEFI)安装fedora40的方法 现实困难:将Fedora-Workstation-Live-x86_64-40-1.14.iso写入U盘制作成可启动U盘启动fedora40,按照向导将fedora40安装到真机的sda7分区中得到报错如下内容: Failed to find a suitable stage1 device: E…

最大矩形问题

柱状图中最大的矩形 题目 分析 矩形的面积等于宽乘以高,因此只要能确定每个矩形的宽和高,就能计算它的面积。如果直方图中一个矩形从下标为 i 的柱子开始,到下标为 j 的柱子结束,那么这两根柱子之间的矩形(含两端的柱…

论文敲公式敲到“崩溃”?合合信息扫描全能王“公式识别”一键解决公式提取难题

毕业季临近,全国高校毕业生陆续进入了忙碌的“答辩季”。进入“百米冲刺”阶段,论文至关重要。对于理科工学生而言,论文中的数理化公式,稍不注意就容易输错,手动输入误差难以避免。 近日,合合信息旗下扫描…

【C++课程学习】:C++入门(函数重载)

🎁个人主页:我们的五年 🔍系列专栏:C课程学习 🎉欢迎大家点赞👍评论📝收藏⭐文章 目录 🌈函数重载: 🍉1.参数个数不同: 🍉2.参数…

【计算机视觉(9)】

基于Python的OpenCV基础入门——形态学操作 形态学操作腐蚀膨胀开运算闭运算梯度运算顶帽黑帽 形态学操作代码实现以及效果图 形态学操作 形态学操作是数字图像处理中的一种方法,用于改变和提取图像中的结构和形状信息。它基于图像的形状和大小特征,通过…

【Framework系列】Excel转Json,配置表、导表工具介绍

今天来介绍一下Framework系列的配置部分,这一部分归属于Framework-Design之中。读过《Framework系列介绍》的小伙伴应该了解整个Framework框架是由多个工程项目组成,没看过的小伙伴可以点击链接了解一下。 Framework-Design设计的初衷是给策划同学用的&a…

为Android组件化项目搭建Maven私服

概览 文章目录 概览前言搭建 maven 私服服务器环境jdk安装配置nexus安装配置管理创建存储点、仓库 项目中使用 maven 私服上传 module 到仓库自动发布 module手动上传单个aar包 引用仓库中的 modulebuild.gradle引入远程module FAQ开发阶段有些module用远程依赖,有些…