DeepMind 利用无监督学习开发 AlphaMissense,预测 7100 万种基因突变

news2024/11/28 6:29:54

类基因组共有 31.6 亿个碱基对,无时无刻不在经历复制、转录和翻译,也随时有着出错突变的风险。

错义突变是基因突变中的一种常见形式,然而人类目前只观察到了其中的一小部分,能够解读的更是只有 0.1%。

准确预测错义突变的作用,对于罕见病、遗传病的研究和防治有着重要作用。这次,DeepMind 又出手了。

作者 | 雪菜
编辑 | 三羊、铁塔

人类基因组共有 31.6 亿个碱基对。这些碱基对每天会经历复制、转录、翻译,最终表达成为蛋白质,调控人类日常生理活动。

在如此庞大的工作量下,即使是精细的人体也很难做到毫无差错。稍有不慎,碱基对就可能配位错误,导致基因突变,日积月累甚至引发癌症。

错义突变 (Missense Mutation) 是一种常见的基因突变形式。 由于 DNA 中碱基突变,翻译得到的氨基酸发生了变化,最终导致整个蛋白质功能被破坏。

在这里插入图片描述

图 1:错义突变示意图。由于 DNA 中腺嘌呤核苷酸突变为鸟嘌呤核苷酸,翻译得到的氨基酸由谷氨酰胺变为丝氨酸

目前人类观察到了 400 多万种错义突变,但仅能将 2% 的错义突变归类为致病突变或是良性突变。

准确预测错义突变的作用能够加深人类对于罕见病的理解,并针对潜在的遗传病进行预防和治疗。 虽然变异效应多重分析 (MAVEs) 可以对蛋白质的突变进行系统的分析,并准确预测其临床效果,但这一方法需要大量的人力物力,难以对所有错义突变可能进行全面的分析。

为此,DeepMind 通过 AlphaFold 分析了蛋白质的整体结构,并结合弱标签学习和无监督学习开发了 AlphaMissense,对错义突变的后果进行了系统的分析。AlphaMissense 利用 ClinVar 数据集进行了验证,预测正确率达到 90%。

随后,AlphaMissense 对人类可能出现的 7,100 万种错义突变进行了预测,其中 32% 可能为致病性突变,57% 可能为良性突变。这些结果将极大促进分子生物学、基因组学、临床医学等学科的发展。这一成果已发表于「Science」。

在这里插入图片描述

图 2:AlphaMissense 对 7,100 万种错义突变的预测结果(上)及人类目前观察到和确认的结果(下) ![在这里插入图片描述](https://img-blog.csdnimg.cn/44b06de16f28492ebc39f6d7f3d5dc0c.png#pic_center)

相关成果已发表于「Science」

论文链接:

https://www.science.org/doi/10.1126/science.adg7492

实验过程

AlphaMissense:AlphaFold + 微调

将一串氨基酸序列输入 AlphaMissense 后,它会对序列中任一氨基酸变化的致病性进行预测。 AlphaMissense 的实现和 AlphaFold 非常相似,只在架构上做了细微的调整。

在这里插入图片描述

图 3:AlphaMissense 的结构示意图

AlphaMissense 的训练集来源广泛,但主要来自于人类和非人灵长类。其中,来源于人类的良性错义突变有 1,248,533 个,致病错义突变则从可能出现但尚未被观察到的 65,314,044 个突变中抽取。

AlphaMissense 的训练包括两步。首先,同 AlphaFold 一样,AlphaMissense 需要预测多序列对比 (Multiple Sequence Alignments) 中被随机掩码的氨基酸,进而预测单链蛋白质的结构,并进行蛋白质语言建模。

随后,研究人员利用人类蛋白质对 AlphaMissense 进行微调 (fine-tuning),并设定了模型的输出目标,即错义突变的致病性。

由于未被观察到的错义突变中存在相当数量的良性突变,但在训练过程中都将其归为了致病突变,因此 AlphaMissense 训练集的噪音很大。为了提升训练集的数量和质量,研究人员使用自蒸馏 (self-distillation) 的方式对数据进行了过滤。

临床数据验证:不同数据集中的表现

训练完成后,利用标注后的临床数据 (ClinVar 数据集)、罕见发育障碍患者中的新发突变 (de novo variants) 和 ProteinGym 中的 MAVE 结果对 AlphaMissense 进行验证。

首先,研究人员对 AlphaMissense 在 ClinVar 数据集中的表现进行了评价。在对 18,924 个突变位点进行分析后,AlphaMissense 的 auROC 为 0.940,较之前最先进的进化模型 (EVE) 有所提升 (0.911)。

在对错义突变进行临床评价时,人们一般会关注特定疾病相关的基因。因此,分辨出这些基因中良性和致病的错义突变尤为重要。研究人员利用 AlphaMissense 对 ClinVar 中的 612 个基因进行分析,其 auROC 为 0.950,优于 EVE 的 0.921。

最后,研究人员分析了 AlphaMissense 在解密发育障碍 (DDD, Deciphering Developmental Disorders) 数据集中的预测结果。AlphaMissense 的 auROC 为 0.809,与 PrimateAI 的 0.797 相当。

在这里插入图片描述

图 4:AlphaMissense 和其他模型在不同数据集中性能对比

A:对 ClinVar 中突变位点的分析;

B:对 ClinVar 中基因的分析;

C:对 DDD 数据集的分析。

同时,AlphaMissense 对 Cancer Hotspots、ACMG (American College of Medical Genetics) 和其他 MAVE 数据的预测结果也较其他模型更为优异。上述结果说明,AlphaMissense 在多个数据集中表现优于现有模型。

总体预测性能:反映蛋白质突变趋势

用临床数据对 AlphaMissense 进行验证之后,研究人员利用 AlphaMissense 对 2.16 亿个氨基酸在人类常见的 19,233 个蛋白质中可能发生的突变进行了预测,最终得到了 7,100 万种错义突变的预测结果。

AlphaMissense 的致病性预测结果在 0-1 之间,越接近 1 说明致病可能性越高。由于绝大多数预测结果接近 0 和 1,因此 0.2 至 0.8 之间的数据可能不太准确。最终,他们将预测结果分为三类:可能致病、可能良性和无法确定。

为对 AlphaMissense 的预测性能进行整体评价,研究人员计算了所有蛋白质的单个氨基酸致病性。结果显示,芳香族氨基酸和半胱氨酸的突变更容易引发疾病,与实际结果一致,因为这两种氨基酸起到了维持蛋白质结构的作用。

在这里插入图片描述

图 5:AlphaMissense 的预测结果热图,色块代表 2.16 亿个氨基酸变化在蛋白质组中的平均致病性

将 AlphaMissense 的预测结果和 AlphaFold 预测的蛋白质结构可视化之后,我们可以看到这些蛋白质的突变趋势。 比如,蛋白质结构紊乱的区域与良性突变的发生区域相对应,这与蛋白质组学的预测结果也是一致的。
在这里插入图片描述

图 6:ACMG 和 MAVE 数据集中部分蛋白质的可视化结果

左侧为 AlphaMissense 预测的致病性,可能致病的错义突变为红色,可能良性的错义突变为蓝色,已被收录于 ClinVar 数据集的突变以实心圆标注。右侧为 AlphaFold 预测的蛋白质结构,不同颜色表示这一区域突变致病性,与 AlphaMissense 相对应。

预测准确率:与 MAVE 结果一致性

为调查 AlphaMissense 和 MAVE 结果之间的一致性,研究人员利用 AlphaMissense 对两组 MAVE 数据进行了分析。与其他预测方法相比,AlphaMissense 与 MAVE 数据最为接近。

在这里插入图片描述

图 7:AlphaMissense 和其他模型与 MAVE 预测结果的斯皮尔曼相关系数,其中 AlphaMissense 结果最好

随后,他们又将 AlphaMissense 的预测数据和实验验证过的错义突变致病性进行了对比。SHOC2 蛋白可以与 MRAS 和 PP1C 蛋白形成复合物,激活 Ras-MAPK 癌症通路。AlphaMissense 与 MAVE 对这一突变和 Ras 癌症细胞的相关性进行了预测,得到的斯皮尔曼相关系数为 0.47,优于其他模型 (ESM1v: 0.41, ESM1b: 0.40, EVE: 0.32)。

在这里插入图片描述

图 8:不同模型对 MAVE 数据集中错义突变的预测结果

进一步的,研究人员探究了 AlphaMissense 对 SHOC2 蛋白不同区域氨基酸错义突变致病性的预测结果。在 SHOC2 的前 80 个氨基酸中,MAVE 预测第 63-74 号氨基酸突变是致病的,因为这一区域会通过 RVxF 与 PP1C 蛋白结合。AlphaMissense 是唯一一个识别出这一重要区域的模型。

在这里插入图片描述

图 9:AlphaMissense 对 SHOC2 蛋白的预测结果

A:不同模型对 SHOC2 蛋白前 200 氨基酸突变致病性的预测结果。自上而下分别为实际情况 (MAVE)、AlphaMissense 和 EVE;

B:SHOC2 蛋白(红色和蓝色)和 MRAS(黄色)、PP1C(金色)蛋白组成的复合体结构图。

而且,AlphaMissense 能够反映出不同种类氨基酸错义突变后的结果。 对于 SHOC2 蛋白而言,AlphaMissense 的预测结果与实际结果最为接近。

在这里插入图片描述

图 10:不同模型对 SHOC2 中氨基酸突变致病性预测与 MAVE 结果的相关性

上述结果共同说明,AlphaMissense 的预测结果与 MAVE 相当,能够对基因错义突变的结果进行准确的预测。

最后,Deepmind 将这一模型和预测结果都开源公布在了社区中,希望这种结论能够为其他学科的研究提供帮助。

模型链接:

https://github.com/deepmind/alphamissense

基因突变:遥不可及又如影随形

提到基因突变,我们很容易想到 X 光、核辐射、亚硝酸盐等危险元素,或者是电影生化危机、绿巨人之中的桥段,觉得这些离我们过于遥远。诚然,我们在生活中接触到的辐射非常少,但基因突变还是发生在生活中的每时每刻,也切实地改变了我们的生活。

在生活中,我们不可避免地会接触到辐射源,比如太阳光。太阳光中 6% 的辐射来源于紫外线,而紫外线就是致癌因素之一,因此长时间暴晒会增加皮肤癌的危险。

即使不接触辐射源,DNA 在复制、转录、翻译的时候也不可避免地犯一些错误,引起基因突变,只是这些突变可能是良性的,或是被免疫机制及时清除了。

但同时,基因突变也为我们的生活提供了便利,尤其是在农业生产中。农作物突变体能够提高作物的产量,提升作物耐盐碱的能力,甚至帮助防治虫害。对这些突变体进行繁育筛选后,这些优良的特性就能保留下来,提升粮食产量。

在这里插入图片描述

图 11:不同品种的玉米突变体

然而,人体基因突变的可能性太多,我们目前了解到的不过沧海一粟。借助 AlphaMissense,我们能够对基因突变的结果进行相对可靠的预测,再加以反推,也许就能找到遗传病、罕见病背后的机制,为疾病的防治提供新方法。

同时,AlphaMissense 还为其他领域的研究提供了素材。也许不久之后,我们就能看到 AlphaMissense 对其他物种基因突变的解读,进而合理利用基因突变,让基因工程为我们的生活带来更多福祉。

参考链接:

[1]https://www.science.org/doi/10.1126/science.abj6987

[2]https://www.cshl.edu/discovery-of-new-stem-cell-pathway-indicates-route-to-much-higher-yields-in-maize-staple-crops/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1042054.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows10/11显示文件扩展名 修改文件后缀名教程

前言 写这篇文章的原因是由于我分享的教程中的文件、安装包基本都是存在阿里云盘的,下载后需要改后缀名才能使用。 但是好多同学不会改。。 Windows 10 随便打开一个文件夹,在上方工具栏点击 “查看”点击 “查看” 后下方会显示更详细的工具栏然后点…

剪映软件专业版的操作与使用,电脑版与手机版APP同步讲解

一、教程描述 什么是剪映?抖音官方推出的一款视频编辑工具,用于短视频的剪辑制作和在线发布,主要在手机端使用,同时支持PC端,操作简单易上手,功能也十分强大,使用过剪映的用户,都将…

ViT细节与代码解读

最近看到两篇解读ViT很好的文章,备忘记录一下: 先理解细节 1:再读VIT,还有多少细节是你不知道的 再理解代码 1:ViT源码阅读-PyTorch - 知乎

此芯科技加入百度飞桨硬件生态共创计划,加速端侧AI生态布局

近日,此芯科技(上海)有限公司(以下简称“此芯科技”)与百度签署硬件生态共创计划合作协议,正式加入由百度发起的硬件生态共创计划。双方将共同推动端侧AI和大模型在个人计算、车载计算以及元宇宙计算等领域…

Spring中是否可以存在两个相同ID的bean

文章目录 一、在同一个xml配置文件里配置两个相同ID的bean结论验证过程源码 二、在不同xml配置文件里配置两个相同ID的bean结论验证过程源码 三、在同一个配置类中以Bean方式添加两个名称相同的bean结论验证过程源码 四、在不同配置类中以Bean方式添加两个名称相同的bean结论验…

基础设施建设-企业级全栈测试平台的最佳实践

QECon(Quality Efficiency Conference)质量效能大会在上海正式开幕!本次大会以"数生智慧:高质量发展新引擎"为主题,深入探讨如何借助数字化和智能化技术推动软件质量的发展,为高质量经济发展提供…

华为云,让AI算力入山河

整个2023年,全球科技界都在为大模型沸腾。云计算产业作为AI大模型与产业场景间的最短路径,自然也在大模型浪潮中备受关注。目前阶段,云厂商已经纷纷入局大模型,从多个角度探索大模型带给云计算产业的可能性。 但我们往往会忽略这样…

【开发篇】八、SpringBoot整合MongoBD

文章目录 1、整合2、简单示例3、一点思考4、MongoDB的安装5、MongoDB的CRUD语法 1、整合 导入MongoBD的起步依赖:(这个starter背后是MongoDB的驱动和其他依赖,在这儿也可以看出命名的规律,redis的就是spring-boot-starter-data-r…

【数据结构-图】并查集

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kuan 的首页,持续学…

接口测试主要测试哪方面?需要哪些技能?要怎么学习?

1、什么是接口测试? 定义:测试系统组件间接口的一种测试。主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点,重点是检查数据的交换,传递和控制管理过程,以及系统间的相互逻辑依赖关系等。 目的&#x…

选择合适的外贸公司邮箱注册服务提供商

随着全球化的发展,越来越多的企业开始涉足外贸领域。而在进行外贸业务时,邮箱是必不可少的工具之一。对于外贸公司来说,应该选择哪家邮箱服务提供商呢?口碑好安全性高的公司邮箱有Zoho Mail、阿里邮箱、腾讯邮箱、网易邮箱等。 首…

Spring cloud Sentinel介绍和安装

Sentinel介绍和安装 🌈初识Sentinel🌈安装Sentinel🌠docker 安装🌠下载sentinel镜像🌠启动sentinel镜像 🌠windows 安装🌠下载🌠运行 🌠sentinel访问 🌈微服务…

上海股票开户佣金最低是多少?怎么开万一账户!

上海股票开户佣金最低是多少?怎么开万一账户! 股票开户是指向证券公司或经纪人申请开通股票交易账户的过程。开户时需要提供个人身份信息和相关资料,完成相关的申请、签署协议以及缴纳开户费用。开户后,投资者就可以在证券市场上…

8年测试老鸟总结,Python自动化测试实现思路(细致)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 Python自动化测试…

NVM:切换node版本后无法使用npm全局包

1.新建文件夹npm_global和npm_cache 2.npm设置 npm config set prefix "C:\Users\18068\node\node_global" npm config set cache "C:\Users\18068\node\node_cache" 3.设置环境变量 新建NVM_PATH环境变量 选择缓存目录 编辑PATH环境变量 新建%NVM_PA…

睿趣科技:新手抖音开店卖什么产品好

抖音已经成为了一款年轻人热爱的社交媒体应用,同时也成为了一种全新的电商平台。对于新手来说,抖音开店卖什么产品是一个备受关注的问题。在这篇文章中,我们将探讨一些适合新手的产品选择,帮助他们在抖音上开店获得成功。 流行时尚…

docker自定义网络下 :不同容器的nginx通过容器名称相互访问PHP项目

场景:每个服务都有自己运行的一套环境,分别都有自己的nginx ;我们像用A容器的Nginx 的项目访问到B容器下的nginx项目内容,并且在自定义的网络下面 首先我们可以自定义一个网络:docker默认桥接: docker ne…

03. Springboot集成Mybatis-flex(一)

目录 1、前言 2、MyBatis-Flex 是什么? 3、框架功能对比 4、性能对比 5、快速使用 5.1、Maven添加依赖 5.2、数据源配置 5.3、创建实体类和表 5.4、创建Dao 5.5、创建Service 5.6、创建Controller接口测试 5.7、测试结果 6、小结 1、前言 现在主流的M…

git报错:git Permission denied, please try again.

1 问题描述: git clone/pull代码时提示输入密码,密码输入正确但是报错:git Permission denied, please try again. 2 解决方案: step1 检查SSH Key是否存在#cd ~/.ssh #lsstep2 获取SSH Key如果存在id_rsa.pub 或 id_dsa.pub 文件,跳过此步。 如果不存在,则生成: 先查…

浙江移动与中兴通讯合作项目被评为“光华杯”东部赛区一等奖!

近日,浙江移动携手中兴通讯共同打造的创新合作项目“构建面向东数西算的传输全光底座赋能美丽浙江”在2023年第二届“光华杯”东部赛区决赛中被评为一等奖,该项目以运力为核心,可实践应用于“东数西算”建设工程当中,提供高速无阻…