ProbTransformer:应对RNA折叠等自然过程数据模糊的神秘力量

news2024/9/27 21:28:12

编译 | 于洲‍

今天我们介绍来自德国弗赖堡大学计算机科学系的Jörg K.H. Franke, Frederic Runge以及Frank Hutter发表在NeurIPS 2022会议上的工作,该文章介绍了一种新颖的基于概率的神经网络架构ProbTransformer,它是Transformer生态系统的一种层级增强,在数据分布恢复上有很强的学习能力。文章还介绍了GECO训练过程及其敏感性分析,以及在线自适应技术kappa annealing在ELBO变分训练中的潜在优势。文章还在实证分析中验证了ProbTransformer的有效性。同时还对该架构与领域内其他类似工作进行了对比。

67de2506b075e793cb1bff4cbc718248.png

背景介绍

我们的世界是模糊的,这反映在本文用来训练算法的数据上。当本文试图为自然过程建模时尤其如此,其中收集的数据受到噪声测量和测量技术差异的影响。有时,这个过程本身是不明确的,比如在RNA折叠的情况下,相同的核苷酸序列可以折叠成不同的结构。这表明一个预测模型应该有相似的概率特征来匹配它所建模的数据。因此,本文提出了一种分层潜在分布来增强最成功的深度学习模型——Probabilistic Transformer,以适应模糊性和数据分布。本文展示了该方法的好处:(1)在一个合成任务上获得了学习隐藏数据分布的能力,(2)在RNA折叠方面的最先进的结果显示了在高度模糊的数据上的优势,(3)通过隐式学习底层分布和优于现有工作,展示了其在基于性质的分子设计上的生成能力。

本文的创新与贡献:

  • 本文提出了ProbTransformer,这是对Transformer生态系统的一种新的分层概率体系结构增强。

  • 本文使用GECO的训练程序,分析其超参数κ的敏感性,并引入在线适应技术kappa退火,这可能有利于用ELBO进行变分训练。

  • 全面的实证分析,验证ProbTransformer的能力学习和恢复数据分布在一个新的合成顺序分布任务,评估其在实践中处理数据模糊性的能力,通过实现最先进的RNA折叠性能,并通过在分子设计中优于现有工作来证明其生成特性。

方法介绍

ProbTransformer采用的是概率自动编码器和最大边际似然的ELBO优化方法。首先,使用Transformer模型对输入的序列进行编码,得到表示输入序列的向量。接着,使用Probabilistic Transformer模型对该向量进行处理,生成一个概率分布,表示每个目标标记在给定输入时的可能性。在推断时,本文可以从预测模型中采样得到不同的预测结果。但是,本文也可以使用各自(高斯)分布的均值,而不是从中采样。本文称之为均值推断,与样本推断相对应。

54fe08b968d5a38b2bc9e68a167a1853.png

图1:概率前馈层

在训练过程中,研究者使用了GECO方法优化ELBO,并引入了kappa退火技术,为变分训练提供了潜在的好处。模型通过将生成条件与输入SMILES的分子属性相结合来隐式地学习训练数据的属性,使模型具有更好的生成和分类能力。在推断时,本文可以生成具有多个所需性能值的新分子。

30f286de30f6a454a0c1889e2632f493.png

图2:ProbTransformer的训练设置:预测编码器和后验编码器联合训练

实验介绍

数据集:本文使用多个数据集,从公开出版物中收集数据样本,创建预定义验证集和测试集VL0、TS0。派生出结构相同的测试集TSsameStruc(149个样本)和模棱两可的测试集TSsameSeq(20个样本)。删除训练池中与测试和验证集相似度大于80%的样本,保留其余样本以捕捉不确定性。最终数据包括52007个训练样本、1299个验证样本和1304个测试样本。此外,收集来自多个数据库的数据样本,包括BpRNA、RNA Stralign、ArchiveII和RNA-Strand等。从TrainSetA和TrainSetB中删除重复和未包含成对碱基样本。限制序列长度不超过500个核苷酸。使用CD-HIT-EST-2D删除训练数据中与验证和测试样本相似度超过80%的样本,使用BpRNA对文件格式进行注释。

实验过程与结果:本文实验分别在合成的序列分布任务、RNA折叠和分子设计领域进行了实验。首先,在合成的序列分布任务中,通过使用ProbTransformer模型,在处理数据的模糊性方面表现出了最先进的性能。其次,在RNA折叠方面,实验结果表明ProbTransformer模型具有生成能力,表现优于现有的工作。最后,在分子设计领域,实验结果表明ProbTransformer模型可以生成多个期望的属性值的新颖分子,并在药物传递方面提供了更好的性能。该实验过程中,本文采用了类似的模型结构和训练方式,并通过使用ProbTransformer模型,将概率层集成到模型中,以更好地处理数据的模糊性和获得更好的生成能力。实验结果表明,ProbTransformer模型具有很强的实用性和可扩展性,可应用于多种领域。

5cdebbedfd5478b1f0bc743dd12c78b6.png

表1:综合任务中五个随机种子的均值测度

b7e6428aceb041c0fc1c30613edcaa6f.png

图3:基于深度学习的TS0挑战性RNA方法的预测示例

本文展示了(顶层)一个II族催化内含子(RF02001)和(底层)一个m盒核糖开关(RF00380)

bc1a13b012b88efa408be8f0413bfd9e.png

表2:TS0和TSsameStruc上不同RNA折叠方式的结构保真度。对于ProbTransformer和vanilla Transformer,本文显示了三个随机种子的平均结果

c2fa56557d3fac7be5f2c3e5bf190067.png

表3:GuacaMol数据集上的多属性(TPSA+logP+SAS)条件训练(在五种不同种子上的平均值)

1c0a285aa574c5a60a367f9c316be6b1.png

图4:(左)按问题层数量的性能改进:TS0上的圆点(蓝色)和TSsameStruc上的三角形(红色)。(右)100个训练周期中不同初始化的Kappa退火

a8f177239606d2ce180356322e735b52.png

表4:不同初始化条件下的汉明距离

结果与讨论

本文提出了一种新的概率层,在保持全局接受域的同时,利用分层潜在分布增强变压器架构。ProbTransformer在一个转发路径中对相互依赖的序列进行采样。这种采样发生在潜在空间中,ProbTransformer可以细化或解释在更深一层中采样的潜在表示。与从softmax输出分布中采样相比,该方法具有更大的灵活性。它还与Transformer模型的其他增强兼容,因为它只添加了一个新层,但保持其他所有内容不变。

ProbTransformer是第一个已知的RNA折叠模型,可以为给定的RNA序列提供多种正确的结构建议,这为RNA结构预测的新研究路径打开了大门,这些研究路径与RNA结构动力学的实验证据一致,例如,NMR研究,如磨损、凸起迁移和波动碱基对。在具有挑战性的多目标优化任务中,设计具有所需属性的分子,与最先进的vanilla Transformer架构相比,本文在仅解码的设置中演示了对分子属性的优越控制。

参考资料

Franke, Jörg, Frederic Runge, and Frank Hutter. "Probabilistic Transformer: Modelling Ambiguities and Distributions for RNA Folding and Molecule Design." Advances in Neural Information Processing Systems 35 (2022): 26856-26873.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/504470.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

wangzherongyao PMO

感谢【五一节】大家的相遇,总结下。 2023年05月02日,【第一组】组队开黑 我总结了下这天为什么打的那么好,首先赛季初段位在王者附近,大家心态重视程度也高,不轻敌,也不盲目,运营好兵线一步一步…

springboot2集成knife4j(swagger3)

springboot2集成knife4j(swagger3) springboot2集成knife4j(swagger3) 环境说明集成knife4j 第一步:引入依赖第二步:编写配置类第三步:放行相关资源 & 保证启动了knife4j第四步&#xff1a…

Lecture 14:Life-long Learning

目录 Catastrophic Forgetting 灾难性遗忘(Catastrophic Forgetting)的克服之道 Selective Synaptic Plasticity Additional Neural Resource Allocation Memory Reply 其他 Catastrophic Forgetting ——为什么今日的人工智慧无法成为天网?灾难性遗忘 Life…

将ssh发布密钥添加到服务器的ssh授权密钥中,但是为什么我仍然无法ssh登录到此服务器?

我已经将ssh发布密钥添加到服务器的ssh授权密钥中,但是为什么我仍然无法ssh登录到此服务器? 即使将ssh公钥添加到服务器的授权密钥中,您也可能无法通过SSH登录到服务器,这有几个原因: 1.服务器的authorized_keys文件的权限不正确…

DAY 56 MySQL数据库的索引

索引的概念 索引是一个排序的列表,在这个列表中存储着索引的值和包含这个值的数据所在行的物理地址(类似于c语言的链表通过指针指向数据记录的内存地址)。 使用索引后可以不用扫描全表来定位某行的数据,而是先通过索引表找到该行…

专业的媒体邀约服务

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 媒体邀约是什么?专业的媒体邀约服务包含哪些内容?怎么选择合适的媒体邀约服务机构? 今天胡老师就跟大家分享下这方面你的经验。 一,媒体邀约…

【Java入门合集】第四章继承(三)

【Java入门合集】第四章继承(三) 博主:命运之光专栏:JAVA入门 学习目标 1.掌握继承性的主要作用、实现、使用限制; 2.掌握this和super的含义及其用法; 3.掌握方法覆写的操作; 4.掌握final关键字…

【Spring MVC】Web程序开发

文章目录 1. 什么是Spring MVC?2. 如何创建Spring MVC项目?3. 简单示例演示4. 路由接口映射4.1 RequestMapping4.2 GetMapping和PostMapping 5. 获取参数5.1 获取单个参数5.2 获取多个参数5.3 获取对象5.4 RequestParam参数重命名5.5 ResquestBody接收JS…

告别PPT手残党!这6款AI神器,让你秒变PPT王者!

如果你是一个PPT手残党,每每制作PPT总是让你焦头烂额,那么你一定需要这篇幽默拉风的推广文案! 我向你保证,这篇文案将帮助你发现6款AI自动生成PPT的神器,让你告别PPT手残党的身份,成为一名PPT王者。 无论…

GoogleOptions命令行参数解析工具

GoogleOptions命令行参数解析工具 GoogleOptions GoogleOptions GoogleOptions是来自 Bazel Project 的命令行参数解析器。将 com.google.devtools.common.options 包拆分为一个单独的 jar&#xff0c;用于通用实用程序。 环境搭建: 引入maven依赖 <dependency><gr…

如何在Windows 10上使用Kali Linux应用程序

Linux操作系统在一些企业中越来越受欢迎。有许多发行版&#xff0c;包括Mint、Ubuntu和Kali。Kali是最著名的Linux发行版之一&#xff0c;渗透测试人员通常使用它。Kali Linux配备了一系列免费的开源软件&#xff0c;成为渗透测试的理想选择。目前&#xff0c;安全专家和渗透测…

【Vue】学习笔记-CLI Todo-List案例

学习笔记-CLI Todo-List案例 Todo-List案例src/App.vuesrc/components/MyHeader.vuesrc/components/MyList.vuesrc/components/MyItem.vuesrc/components/MyFooter.vue Todo-List案例 组件化编码流程 拆分静态组件&#xff1a;组件要按照功能点拆分&#xff0c;命名不要与html…

VSCode 开发flutter 实现设备远程调试

目前只找到了安卓的调试方案&#x1f62c;。 安卓端&#xff1a; 1首先安装 ADB Commanads for VSCode扩展 并且必须确保ADB已经添加到系统环境变量中 如未添加请按照下面的方式添加&#xff0c;如添加请直接跳到下面。 2添加环境变量&#xff08;windows可参考&#xff0c…

【Java系列】深入解析Java多线程

序言 你只管努力&#xff0c;其他交给时间&#xff0c;时间会证明一切。 文章标记颜色说明&#xff1a; 黄色&#xff1a;重要标题红色&#xff1a;用来标记结论绿色&#xff1a;用来标记一级重要蓝色&#xff1a;用来标记二级重要 希望这篇文章能让你不仅有一定的收获&#xf…

sqli-labs通关(十七)

第十七关 这一关跟前面的关卡都不一样&#xff0c;是全新的关卡&#xff0c;页面是一个密码重置页面&#xff0c;需要输入用户名&#xff0c;然后输入新的密码&#xff0c;就会把我们的旧密码替换掉。所以就会用到数据库的update更新数据&#xff0c;不再是前面的查询数据&…

327页16万字市智慧人社项目建设方案(word可编辑)

本资料来源公开网络&#xff0c;仅供个人学习&#xff0c;请勿商用&#xff0c;如有侵权请联系删除 第 1 章 项目建设总体框架设计 1.1 系统总体架构设计 市智慧人社项目从总体逻辑上可分为信息访问层、门户层、应用服务层、应用支撑层、数据资源层和基础设施层等六个层次&a…

华三(H3C)新服务器安装Windows server系统后插拔网线没有反应,华三R4900 G3服务器安装网卡驱动和芯片驱动

官网&#xff08;根据自己的服务器下载驱动&#xff09;&#xff1a;​​​​​​https://www.h3c.com/cn/BizPortal/DownLoadAccessory/DownLoadAccessoryFilt.aspx 在服务器没有光盘槽和U盘不被服务识别的时候的时候&#xff0c;服务器通过在管理口中的KVM控制&#xff0c;进…

第八章 使用Apache服务部署静态网站

文章目录 第八章 使用Apache服务部署静态网站一、网站服务程序1、网站服务介绍2、Apache程序介绍 二、配置服务文件参数1、Linux系统中的配置文件2、配置httpd服务程序时最常用的参数以及用途描述 三、SELinux安全子系统1、SELinux介绍2、SELinux服务配置模式3、Semanage命令4、…

前端响应超时、API-server 服务内存不足...碰见这类 DolphinScheduler 资源中心相关问题怎么办?...

作者 | 刘森 卡特加特 大数据工程师 Apache DolphinScheduler Contributor 最近&#xff0c;有些用户小伙伴反映在使用 Apache DolphinScheduler 资源中心时会遇到问题&#xff0c;社区小伙伴整理了一些常见问题&#xff0c;希望帮大家解决燃眉之急。 [WARN] 2023-04-25 03:02…

网络工程师网络管理软件SNMPc软件的下载,安装和使用教程说明

⬜⬜⬜ &#x1f430;&#x1f7e7;&#x1f7e8;&#x1f7e9;&#x1f7e6;&#x1f7ea;(*^▽^*)欢迎光临 &#x1f7e7;&#x1f7e8;&#x1f7e9;&#x1f7e6;&#x1f7ea;&#x1f430;⬜⬜⬜ ✏️write in front✏️ &#x1f4dd;个人主页&#xff1a;陈丹宇jmu &am…