NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

news2024/11/26 4:39:28

科学家们创建了一个能够从头合成人工酶的人工智能系统。实验测试发现,一些酶与自然界中发现的酶具有相同的功效,即使人工生成的氨基酸序列与任何已知的天然蛋白质明显不同。

实验表明,尽管自然语言处理是为了阅读和编写语言文本而开发的,但它也可以学习生物学的一些基本原理。Salesforce Research开发了名为ProGen的AI程序,该程序使用next-token预测将氨基酸序列组装成人工蛋白质。

450a7bf1f96544cc2bcf292707345e2c.png

科学家们表示,这项新技术可能会比获得诺贝尔奖的定向进化蛋白质设计技术更强大,它将通过促进新蛋白质的开发来为拥有50年历史的蛋白质工程领域注入活力,这些蛋白质将被广泛应用于医学治疗甚至塑料降解等领域。

“人工设计比受进化过程启发的设计具备更好的优势,”加州大学旧金山分校药学院生物工程和治疗科学的教授James Fraser博士说,他是这项工作的作者之一,该工作于2023年1月26日发表在《Nature Biotechnology》杂志。

“语言模型可学习进化的各个方面的知识,但它与正常的进化过程不同,”Fraser说。“我们现在有能力调整这些属性的生成以获得特定效果。例如,可以合成一种非常耐热或耐酸性环境或不与其他蛋白质相互作用的酶。

6719eba4b89c469d6d0c463afaa55913.png

为了创建该模型,科学家们需将28亿种不同蛋白质的氨基酸序列输入机器学习模型,花几周的时间学习蛋白质的相关信息。然后,他们通过用来自五个溶菌酶家族的56000条序列以及有关这些蛋白质的特征信息对模型进行微调。

该模型会迅速生成一百万条序列,研究小组根据这些序列与天然蛋白质序列的相似程度以及AI蛋白质的氨基酸“语法”和“语义”,选择100条序列进行测试。(注:这里的选择就有很大随机性了??)

利用Tierra Biosciences体外筛选的第一批100种蛋白质,研究小组合成了五种人工蛋白质并在细胞中进行试验,将其活性与鸡蛋蛋白中发现的母蛋清溶菌酶(HEWL)进行了比较。在人类的眼泪、唾液和牛奶中也发现了类似的溶菌酶,它们可以抵御细菌和真菌。

其中两种人工酶能够分解细菌的细胞壁,其活性与HEWL相当,但它们的序列仅有18%是相同的。这两个序列与任何已知蛋白质的相似度分别约为90%和70%。

天然蛋白质中存在一个突变即可使其失活,但在另一轮筛选中,研究小组发现,尽管仅有31.4%的序列与任何已知的天然蛋白质相同,AI生成的酶依然表现出活性。

1ad1c6ed61f6c02399c57fe56d9c9905.png

人工智能甚至能够通过研究原始序列数据来学习酶的晶体结构。用X射线晶体学测量发现,人造蛋白质的原子结构看起来就像它们本来的样子,尽管序列是以前从未见过的。

Salesforce Research 基于他们的研究人员最初开发的一种自然语言编程 于2020 年开发了英语版本的ProGen。

依据他们先前的工作经验,人工智能系统可以自学语法和单词的含义,以及其他润色写作的基本规则。

“当你用大量数据训练基于序列的模型时,它们在结构和规则学习方面非常强大,”Salesforce Research人工智能研究总监、该论文的资深作者Nikhil Naik博士说。“他们学会了哪些单词可以同时出现,并且符合语义。

对于蛋白质,设计方案几乎是无限的。溶菌酶和蛋白质一样小,最多约300个氨基酸。但是如果有 20 种可能的氨基酸,就会有有大量的 (20300) 可能的组合方式。这比把所有生活在古往今来的人类乘以地球上的沙粒数,再乘以宇宙中的原子数还要大。

鉴于无限的可能性,该模型可以如此容易地产生活性酶是非常了不起的。

“从头合成功能蛋白质的能力表明我们正在进入蛋白质设计的新时代,”Profluent Bio创始人,Salesforce Research前研究科学家,该论文的第一作者Ali Madani博士说。“这是蛋白质工程师可以使用的多功能新工具,我们期待看到它在治疗领域的应用。

AI模型详情参见: https://github.com/salesforce/progen

7d92cd5a837c1a144fc01031a0c622ae.png

深度学习语言模型在各种生物技术应用中表现出很大的潜力,包括蛋白质设计和工程领域。本文描述了一个语言模型ProGen,利用该模型可以生成蛋白质家族中具有可预测功能的蛋白质序列,类似于在不同主题上生成语法和语义正确的自然语言句子。该模型利用了超过19,000个家族的2.8亿个蛋白质序列进行训练,采用蛋白质特异性控制标签加强了模型的准确性。通过对ProGen的训练序列集和标签进行微调,可进一步改善具有充足同源样本家族蛋白质的可控生成性能。尽管微调后的人造蛋白质与天然蛋白质的序列相似性低至31.4%,但在五个不同的溶菌酶家族中均显示出类似于天然溶菌酶的催化效率。正如我们在分支酸变异酶(chorismate mutase)和苹果酸脱氢酶(malate dehydrogenase)中所演示的那样,ProGen可以轻松合成不同蛋白质家族中成员。

点击阅读原文

https://www.sciencedaily.com/releases/2023/01/230126124330.htm

查看原文信息

http://dx.doi.org/10.1038/s41587-022-01618-2

往期精品(点击图片直达文字对应教程)

c2facec3f4dfce2696b8c1358eb4d91c.jpeg

cef50ccaec24635d32e26d089546a143.jpeg

7b1e1538132c03cef2ffdb8f1f1a6d66.jpeg

fa12a9b85dbe1090fb5ab6fb7616d678.jpeg

b44037fa6c2f598149f5412796ab0555.jpeg

358e91cb5db2265fa4f48a70a796e85b.jpeg

c4609eca1c16587095fb391f88e8b5ba.jpeg

bdc5dce22d1f2ef1a9883c707f02deb8.jpeg

c3a8b2ff1bbad10b842966dff0a88eb7.jpeg

b4656db675ab04e714a2c0794667830a.jpeg

e503336bc773c8f1fe316ad0b42eaf8b.jpeg

3dc8b658893a183ae702ba32b9d2b764.jpeg

35b3c110c912bf56b823644d16765f7e.png

d796626c2c31222a477f1bbf4d2ca8d6.png

7e7c096cee5fb450e87de639bbb40375.png

c7c57bac2f61992093c1777893189dc8.png

d405fd4bdcd8a188d8f37649c2ee116f.jpeg

99b1b21263ab7d020e42b122b072b9a3.jpeg

aaf7777c2b90da3e3c8c6aea8f66db98.jpeg

9e386a5de596a5908477def43aae798e.jpeg

79d89edcb142ce12823450e3641cb30a.png

0b9d68121724313886f60c37495d3b87.png

2cb8a7572e54a2a3d1c37c8075f5fbb2.jpeg

e339c2041985cde10bd921e91e7fcbf6.png

1c27ec61833daa0059c3386ca5706c50.png

12fbb607553dba3935890d72f1e620af.jpeg

fc620b9631ae2b045c5be14bcc6444e0.png

ba168884d54a8e8b3b8a729f72f845ba.png

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

2a1a1d4b0239452263066cb076af3480.jpeg

c05b1f4ee51b62a4481c35d80895089d.jpeg

75b047a22bcc83b5fabcb360bad6d8a3.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/429377.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

蓝牙技术|安卓将支持超宽带语音,蓝牙通话更清晰

Android 的蓝牙通话即将迎来质的飞跃,超宽带语音技术将让你的声音更清晰、更真实。 Android 专家 Mishaal Rahman 发现,Android 开源项目仓库中最近添加了一个补丁,实现了与蓝牙免提配置文件 v1.9 相关的功能。据IT之家了解,这个…

【初识C++】(关键字,命名空间)

文章目录一、C中的关键字二、命名空间1.命名空间规则展开命名空间域 和 #include 的区别2.正确使用命名空间三、C中的输入和输出一、C中的关键字 二、命名空间 命名空间是对于全局变量来说,我们在定义变量或函数时,函数名可能会和库中的函数名产生冲突。…

window 和 linux 安装 Tesseract-OCR

一、 Window 安装 Tesseract-OCR 1.安装 tesseract-ocr-w64-setup-5.3.1.20230401.exe 下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 2. 配置 PATH 环境变量 3. 配置TESSDATA_PREFIX 环境变量 4. 在 cmd 中查询是否安装成功 5. 在安装的目录 tessda…

算法刷题总结 (七) 双指针

算法总结7 双指针一、双指针的概念1.1、什么是双指针?1.2、常见类型1.2.1、快慢指针1.2.2、左右端点指针1.2.3、区间指针 - 滑动窗口汇总二、经典例题2.1、快慢指针(1)、链表判环141. 环形链表142. 环形链表 II287. 寻找重复数876. 链表的中间…

人工智能学习07--pytorch15(前接pytorch10)--目标检测:FPN结构详解

FPN:用于目标检测的特征金字塔网络 backbone:骨干网络,例如cnn的一系列。(特征提取) (a)特征图像金字塔 检测不同尺寸目标。 首先将图片缩放到不同尺度,针对每个尺度图片都一次通过算法进行预测。 但是这样一来&#…

第二章:HTML CSS 网页开发基础(一)

一、HTML HTML&#xff1a;是一种网页制作标注性语言。HTML通过浏览器的翻译将页面呈现给用户。 1、1 HTML文档结构 HTML文档由4个主要标记组成&#xff0c;<html>、<head>、<title>、<body> <html>标记 该标记是所有html文件的开头&a…

[STM32F103C8T6]DMA

DMA(Direct Memory Access&#xff0c;直接存储器访问) 提供在外设与内存、存储器和存储器、外设 与外设之间的高速数据传输使用。它允许不同速度的硬件装置来沟通&#xff0c;而不需要依赖于 CPU&#xff0c;在这个时间中&#xff0c;CPU对于内存的工作来说就无法使用。 我自己…

实验设备管理系统【GUI/Swing+MySQL】(Java课设)

系统类型 Swing窗口类型Mysql数据库存储数据 使用范围 适合作为Java课设&#xff01;&#xff01;&#xff01; 部署环境 jdk1.8Mysql8.0Idea或eclipsejdbc 运行效果 本系统源码地址&#xff1a;https://download.csdn.net/download/qq_50954361/87682549 更多系统资源库…

构建新摩尔定律下的算力分发网络

摩尔定律最早由英特尔创始人之一戈登摩尔在1965年提出&#xff0c;他认为集成电路上可以容纳的晶体管数目在大约每经过18到24个月便会增加一倍。20年后的今天&#xff0c;面对日新月异的社会和突飞猛进的数字化需求&#xff0c;摩尔定律也随着社会的进步而被赋予了新的定义。Li…

第八章 法律关系

目录 第一节 法律关系的概念 一、法律关系的定义与特征 二、法律关系的种类 &#xff08;一&#xff09;纵向&#xff08;隶属&#xff09;的法律关系和横向&#xff08;平权&#xff09;的法律关系 &#xff08;二&#xff09;单向&#xff08;单务&#xff09;法律关系、双…

基于ITIL搭建公司IT治理服务框架

ITIL帮助组织标准化其IT服务和流程。ITIL文档包括各种政策、程序和指南&#xff0c;帮助IT团队向客户提供优质的服务。 根据ITIL框架的五个阶段&#xff0c;ITIL文档被广泛分类为不同的类别。 这些阶段包括服务战略、服务设计、服务过渡、服务操作和持续服务改进。每个类别都有…

android内存泄漏检测,Android内存泄露检测之LeakCanary的使用

为了能够简单迅速的发现内存泄漏&#xff0c;Square公司基于MAT开源了LeakCanary。使用LeakCanary&#xff0c;在内存泄漏后&#xff0c;通过分析引用链可以分析内存泄漏的原因&#xff0c;LeakCanary用于检测Activity、Fragment的内存泄漏。 下面通过一些实际案例来进行分析。…

如何替换spring boot中spring框架的版本

背景 我开源的一个项目中&#xff0c;有朋友提到存在Spring Framework 身份认证绕过漏洞(CVE-2023-20860)。 解决方案是升级spring 框架版本&#xff1a; Spring Framework 5.3.X 系列用户建议升级Spring Framework到5.3.26及以上安全版本修复该漏洞Spring Framework 6.0.X 系…

HashMap 学习笔记

HashMap&#xff1a; 为什么经常深入考察&#xff1f; 基于java写的代码会访问很多东西&#xff0c;比如数据库&#xff0c;缓存&#xff0c;消息中间件。 HashMap数据结构 底层是数组 原本已经有很多个位置了 原本是取模但是优化成了性能更高的hash&(n-1) 让哈希值…

【性能测试】5年测试老鸟,总结性能测试基础到指标,进阶性能测试专项......

目录&#xff1a;导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09;前言 性能测试是为了评估…

java 接口,接口的特性,接口实现多态,面向接口编程

package cn.zy.cellphone; /**接口是一种引用数据类型。使用interface声明接口&#xff0c;形式* 形式:public interface 接口名称{}* 接口不能拥有构造方法&#xff0c;不能用于创建对象*接口可以多继承。一个接口可以继承多个其他接口*列如&#xff1a;public interface Broa…

任何人都可以学习车载测试吗?车载测试有什么门槛?

1、车载测试是什么&#xff1f; 车载测试分很多种&#xff0c;有软件测试、硬件测试、性能测试、功能测试等等&#xff0c;每一项测试的内容都不一样&#xff0c;我们所说的车载测试主要指的是汽车软件的功能测试&#xff0c;也就是针对汽车实现的某一个功能&#xff0c;而进行…

windows平台多版本nodejs共存工具nvm-windows 中文文档

2023年4月14日11:11:49 官网地址&#xff1a;https://github.com/coreybutler/nvm-windows 下载地址&#xff1a;https://github.com/coreybutler/nvm-windows/releases nodejs版本列表 https://nodejs.org/en/download/releases PS C:\Users\pc\Desktop> nvm -h Running ve…

关于测试,我发现了哪些新大陆

关于测试 平常也只是听说过一些关于测试的术语&#xff0c;但并没有使用过测试工具。偶然看到编程老师在课堂上使用龙测为我们展示了一波测试的相关操作&#xff0c;我发现了一些新大陆&#xff0c;这篇文章就记录一下有关测试的相关操作。 开启测试之旅 进入官网了解到 龙测…

java学习之接口二

目录 一、接口vs继承 一、继承 二、接口 二、接口多态特性 一、多态参数 二、多态数组 三、多态传递 三、接口练习 一、接口vs继承 一、继承 package com.hspedu.interface_;public class ExtendsVsInterface {public static void main(String[] args) {LittleMonkey…