ProteinGAN扩展蛋白质序列空间

news2024/11/24 20:52:56

为了更广泛的医学应用,为催化任何所需的化学反应而重新设计蛋白质是蛋白质工程的重点。因此作者开发了ProteinGAN,这是一种基于自注意力的生成对抗网络,能够学习自然蛋白质序列的多样性,并生成功能性蛋白质序列

来自:Expanding functional protein sequence spaces using generative adversarial networks

目录

  • 背景概述
  • 方法

背景概述

蛋白质的3D结构、物理化学性质和分子功能由其氨基酸序列决定。从20种常见的氨基酸中,一个包含100个氨基酸的小尺寸蛋白质可以用 1 0 130 10^{130} 10130种不同的方法制成。在这个巨大的多维空间中,估计只有 1 / 1 0 77 1/10^{77} 1/1077可以折叠成3D结构来执行特定功能。这给旨在筛选具有增强特性的新序列方法带来了很大的负担,因为随机的氨基酸替换都可能会导致蛋白质活性下降。而另一方面,机器学习可以直接从氨基酸序列推断蛋白质特性和功能。能够产生新的功能序列变体的计算方法,并绕过巨大的蛋白质序列空间的实验筛选,对于满足生物医学和生物技术领域对新蛋白质多样性的挑战和需求变得越来越重要。

传统的生物信息学方法,如基于隐马尔可夫模型的方法,以及最近的机器学习方法,已经证明了在天然蛋白质序列中发现结构信息的巨大潜力。然而,蛋白质研究中现有的大多数机器学习模型都是判别性的,也就是说,使用现成的数据对模型进行训练,以预测给定蛋白质序列的特性。相比之下,生成建模方法能够学习底层数据分布并从中生成新样本。因此,从理论上讲,这些方法可以从功能性蛋白质序列空间学习并生成新的蛋白质序列,为发现新的功能性序列提供途径。

因此,作者提出了ProteinGAN(图1a),这是一个生成式对抗网络,能够生成具有天然生化特性的新型功能蛋白质序列。通过学习氨基酸之间复杂的依赖关系,证明了神经网络概括蛋白质序列空间的能力。ProteinGAN通过生成训练数据中不存在的蛋白质结构来生成高度多样化的序列。

fig1

  • 图1:ProteinGAN学习天然蛋白质序列之间的内在关系。
  • a:ProteinGAN训练。给定一个随机输入向量,Generator网络产生一个蛋白质序列,由Discriminator网络通过将其与自然蛋白质序列进行比较进行评分。生成器试图通过生成最终看起来像真实序列的序列来欺骗判别器(生成器从未看到真正的序列)。
  • b:64个生成序列在不同训练迭代下与训练数据最接近的自然序列的序列一致性。
  • c:通过插值每个变量维度,潜在空间向量与蛋白质特性相关。
  • d:序列多样性可以通过改变潜在向量的方差来控制。x轴表示插值潜向量的标准差,y轴表示在聚类序列相似性阈值内增加70%的序列聚类数量。
  • e:ProteinGAN有效捕获天然MDH序列的氨基酸分布。序列变异性表示为多序列比对估计的生成序列和训练序列的香农熵。低香农熵值表示高度保守,而高熵值表明在给定位置上氨基酸多样性高。

方法

GAN架构由两个网络组成:一个判别器和一个生成器。每个网络都使用ResNet块(图2)。鉴别器中的每个块包含三个1D卷积层,滤波器大小为3和ReLU激活。生成器残差块由两个转置卷积层、一个相同滤波器大小为3的卷积层和ReLU激活组成。每个网络都有一个自注意力层。用转置卷积技术进行上采样。为了保证训练的稳定性,在所有层上都实现了归一化。
fig2

  • 图2:ProteinGAN的框架。

判别器的输入是one-hot编码,词汇表大小为21:20个规范氨基酸和表示序列开头或结尾的空格符号。生成器输入是一个包含128个值的向量:从均值为0,标准差为0.5的随机分布中抽取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/460311.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于GEE平台的植被覆盖度(FVC)像元二分法计算

一、植被覆盖度计算方法 植被覆盖度FVC(Fractional Vegetation Cover)定义为单位面积内绿色植被冠层垂直投影面积所占比例。FVC是衡量地表植被状况的重要指标之一,也是区域生态系统环境变化的重要指示,对水文、生态、区域变化等都…

线程同步方式之一互斥锁

线程同步的4种方式:互斥锁、条件变量、读写锁、信号量 了解概念-临界资源、互斥、临界区、原子性 回想一下在信号量那部分提起过的几个概念,将多个执行流串行安全访问的共享资源称为临界资源,多个执行流中访问临界资源的代码所在的地址空间…

第4章 数据结构之“队列”

队列简介(queue) 1.一个先进先出的数据结构 2.javascript中没有这个数据结构,但是可以使用array实现队列的所有功能。 3.队列常用操作:push,shift,获取队列头部的元素:queue[0] const queue []// 入队: …

网络基础之网络传输基本流程

网络基础 此小节介绍网络基础概念 首先要明确的是 网络是层状结构!分层->OP->解耦 网络发展:最早的时候,每台计算机之间是相互独立的。后续发展到网络互联,就是将多台计算机连接在一起,完成数据共享。 协议&…

Jmeter配置元件之csv数据文件配置

一、csv简介 csv是非常通用的一种文件格式,适用于批量导入数据到接口参数中,或者保存测试结果都可以使用csv数据文件(jmeter不仅仅支持这一种读取文件的方式),csv数据一行即为数据表的一行,多个字段用逗号隔开。 登录接口 …

A+CLUB管理人支持计划第四期 | 香农投资

免责声明 本文内容仅对合格投资者开放! 私募基金的合格投资者是指具备相应风险识别能力和风险承担能力,投资于单只私募基金的金额不低于100 万元且符合下列相关标准的单位和个人: (一)净资产不低于1000 万元的单位&…

Vue3技术7之toRaw与markRaw、customRef、provide与inject、响应式数据的判断、组合式API的优势分析

Vue3技术7 toRaw与markRawtoRawApp.vueDemo.vue markRawDemo.vue 总结 customRefApp.vue总结 provide与inject目录结构App.vueChild.vueSon.vue总结 响应式数据的判断App.vue总结 组合式API的优势配置式的API存在的问题组合式API的优势 toRaw与markRaw toRaw App.vue <te…

HDR tone mapping介绍

文章目录 HDR and tone mapping1.什么是HDR&#xff1f;2.为什么需要HDR&#xff1f;3.hdr文件格式4.tone mapping4.1 aces tone mapping4.2 Fast Bilateral Filtering for the Display of High-Dynamic-Range Images 5 参考 HDR and tone mapping 1.什么是HDR&#xff1f; 就…

nginx + springboot 实现限流

1.spring项目打成jar包后&#xff0c;运行起来 &#xff1a;例如我启动项目 ip 端口号&#xff1a;172.168.0.217:8090 2.修改nginx配置&#xff0c;增加如下配置 nginx 中有两个主要的指令可以用来配置限流&#xff1a;limit_req_zone 和 limit_req upstream myserver{serve…

面试篇:Redis

一、缓存穿透 1、缓存穿透 查询一个不存在的数据&#xff0c;mysql查询不到数据也不会直接写入缓存&#xff0c;就会导致每次请求都查数据库。即&#xff1a;大量请求根本不存在的key 2、查询流程 3、出现原因 业务层误将缓存和库中的数据删除了&#xff0c;也可能是有人恶…

3台服务器+StarVCenter,搭建“超融合云平台”-完美体验-跑100台虚拟机

3台服务器StarVCenter&#xff0c;搭建“超融合云平台”-完美体验-跑100台虚拟机 我们通常讲的“超融合&#xff08;HCI&#xff09;”是一种云平台基础架构方案&#xff0c;它无需专用的存储设备&#xff0c; 每台服务器既承担计算又存储数据&#xff0c; 只需增加服务器&…

SpringMVC-RESTful架构风格

目录 RESTful架构风格 1、RESTful概述 2、RESTful的六大原则 3、RESTful的实现 4、HiddenHttpMethodFilter RESTful风格的CRUD 1、环境搭建 2、功能需求 3、功能&#xff1a;访问首页 4、功能&#xff1a;查询所有数据 5、功能&#xff1a;删除一条数据 6、功能&…

Web服务

安装 WEB 服务&#xff1b; ~ 服务以用户 webuser 系统用户运行&#xff1b; ~ 限制 web 服务只能使用系统 500M 物理内存&#xff1b; ~ 全站点启用 TLS 访问&#xff0c;使用本机上的“CSK Global Root CA”颁 发机构颁发&#xff0c;网站证书信息如下&#xff1a; C…

财报解读:涅槃重生之后,新东方还想再造一个“文旅甄选”?

新东方逐渐走出了“微笑曲线”。 图源&#xff1a;新东方2023财年Q3财报 2023年4月19日&#xff0c;新东方披露了2023财年Q3财报&#xff08;截至2023年2月28日止&#xff09;&#xff0c;营收7.5亿美元&#xff0c;同比增长22.8%&#xff1b;归母净利润为8165万美元&#xff…

2023年4月份上新的视频领域分割模型设计系列论文(附下载链接)

来源&#xff1a;投稿 作者&#xff1a;王老师 编辑&#xff1a;学姐 论文1 论文标题&#xff1a; Boosting Video Object Segmentation via Space-time Correspondence Learning 论文链接&#xff1a; https://arxiv.org/pdf/2304.06211v1.pdf代码链接&#xff1a;暂未开源 …

QGIS数据可视化学习笔记02——CSV数据和表连接

在其他的GIS软件中&#xff0c;表的连接操作是十分常用的操作&#xff0c;在QGIS中也是一样的&#xff0c;接下来我们介绍QGIS中属性表之间的连接以及如何添加CSV数据到属性表中。 1、表的连接 &emsp如关系型数据库一样&#xff0c;两表连接的前提是&#xff0c;两个表中都…

使用大模型进行代码阅读——关于LLaMA模型代码的一些思考

使用大模型进行代码阅读 关于LLaMA模型代码的一些思考 关于这个模型的代码其实挺简单的&#xff0c;如果了解transformer decoder的代码&#xff0c;这个代码理解起来相对会比较容易一些&#xff0c;但是在这个代码里面有几个问题&#xff0c;是自己的一些思考或者是疑问点吧…

【NLP教程】用python调用百度AI开放平台进行情感倾向分析

一、背景 Hi&#xff0c;大家&#xff01;我是 马哥python说 &#xff0c;一名10年程序猿。 今天我来演示一下&#xff1a;通过百度AI开放平台&#xff0c;利用python调用百度接口进行中文情感倾向分析&#xff0c;并得出情感极性分为积极、消极还是中性以及置信度结果。 二…

HTB-Cache

HTB-Cache 信息收集80端口 立足www-data -> ashash -> luffyluffy -> root 信息收集 80端口 主页是一些hacker的介绍。 作者介绍能收集可能的用户名ASH以及有一个其他项目可能有用&#xff0c;如下&#xff1a; “Check out his other projects like Cache:HMS(Hosp…

【Python小技巧】使用Gradio 构建基于ChatGPT的AI绘图 Web 应用(附源码)

文章目录 前言一、Gradio是什么&#xff1f;二、使用Gradio构建基于ChatGPT的 Web 应用1. 安装gradio库2. 安装openai库&#xff08;ChatGPT的python库&#xff09;3. Web 应用示例&#xff08;源代码&#xff09; 总结 前言 都说ChatGPT也可以生成图片&#xff0c;好奇的我也…