arxiv2022 | MolT5:Translation between Molecules and Natural Language

news2024/11/15 11:06:45

Ambitious goal !!

任务molecule captioning and text-guided de novo molecule generation.

论文链接:https://arxiv.org/abs/2204.11817

代码链接:GitHub - blender-nlp/MolT5: Associated Repository for "Translation between Molecules and Natural Language"

huggingface:laituan245 (Tuan Lai)

MolT5 – Multimodal Text-Molecule Representation Model

首先使用T5.1.12的public checkpoint初始化transformer encoder-decoder,T5.1.12是T5的改进版本。使用“replace corrupted spans”对模型进行预训练。

对于每个序列,随机选择序列中的一些单词进行破坏。损坏token的每个连续范围都被一个sentinel token (替换(如图3中的[X]和[Y]所示)。接下来预测dropped-out spans

预训练阶段基本上是在来自两种不同语言的两个单语语料库上训练单一语言模型,并且两个语料库之间没有明确的对齐。这种方法类似于一些多语言语言模型,如mBERT、mBART的预训练。

预训练后,对预训练模型进行微调。在分子生成中,输入是描述,输出是目标分子的SMILES。在分子标题中,输入是某些分子的SMILES字符串,输出是描述输入分子的caption。

Evaluation Metrics

1、Text2Mol Metric

【Text2mol: Cross-modal molecule retrieval with natural language queries.】:检索模型,根据其文本描述对与分子相似度进行排序。排序函数使用两个embeddings之间的余弦相似度,可以用于评估真实分子/描述与生成的描述/分子(分别)之间的相似性。

2、Evaluating Molecule Captioning

传统上,caption任务是通过自然语言生成指标来评估的,如BLEU、ROUGE和METEOR。与COCO 等每幅图像有几个标题的标题任务不同,在这项任务中,只有一个参考captioning(但是一个分子可以有多个SMILES string?)。这使得这些指标不那么有效,特别是因为有许多不重叠的方法来描述一个分子。然而,为了比较,仍然报告这些分数(例如,汇总句子级METEOR分数)。

3、Evaluating Text-Based de Novo Molecule Generation

希望生成的分子与输入文本匹配,而不是普遍地多样化(novelty 、scaffold similarity等),考虑度量生成的分子到基本真实分子或基本真实描述的距离的度量。

采用了三个指纹指标:MACCS FTS、RDK FTS和Morgan FTS,还报告SMILES-strings匹配、Levenshtein距离和SMILES BLEU分数。

对于使用SMILES-string的模型,生成的分子可能在语法上无效。因此,也关注validity,计算能被RDKIT处理的分子百分比(不能处理就invalid)。

Experiments and Results

Pretraining Data

MolT5的预训练阶段需要两个单语语料库:一个由自然语言文本组成,另一个由分子表征组成。使用“Colossal Clean crawl Corpus”(C4) 作为文本模态的预训练数据集。对于分子,直接利用Chemformer中使用的1亿个SMILES字符串(从ZINC-15中搜集)

Finetuning and Evaluation Data

ChEBI-20(33,010 molecule-description pairs)80/10/10% train/validation/test,为了迫使模型关注描述的语义,将分子的名称替换为“该分子是……”(例如,“该分子是从……中分离出来的有机二硫化物”)。

Results

 

 

 

Limitations

由于这项工作的重点是大型语言模型的新应用程序,因此许多相同的限制也适用于此。也就是说,该模型是在从互联网收集的大型数据集上训练的,因此它可能包含意想不到的偏差。限制是使用SMILES字符串——最近的工作提出了一种具有有效性保证的字符串表示。在实践中,发现这对于预训练的T5检查点(从计算的角度来看这很重要)的效果很差。还注意到,ChEBI-20中的一些化合物可能会在默认的SELFIES实现中导致有效性问题。

Usage

# https://huggingface.co/laituan245
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("laituan245/molt5-large-caption2smiles", model_max_length=512)
model = T5ForConditionalGeneration.from_pretrained('laituan245/molt5-large-caption2smiles')

input_text = 'The molecule is a monomethoxybenzene that is 2-methoxyphenol substituted by a hydroxymethyl group at position 4. It has a role as a plant metabolite. It is a member of guaiacols and a member of benzyl alcohols.'
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

outputs = model.generate(input_ids, num_beams=5, max_length=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/488477.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL知识学习03(三大日志详解 binlog、redo log、undo log)

前言 MySQL 日志 主要包括错误日志、查询日志、慢查询日志、事务日志、二进制日志几大类。其中,比较重要的还要属二进制日志 binlog(归档日志)和事务日志 redo log(重做日志)和 undo log(回滚日志&#xf…

【校招VIP】很神奇,把简历上的学校名称和姓名盖住,其它的部分都很常见,那简历通过率一定很低

在五一之前的一场简历指导的直播里面,发现了一份有意思的简历。 大家如果把这份简历的学校和姓名抹掉,会发现好像跟自己写的简历一模一样。 技能、项目等都是很通用的。 也就是说,这份简历你能写,你的同学也可以写,甚…

项目执行落地的6个步骤

项目执行是将项目计划付诸行动的过程,为客户或利益相关者生产可交付的产品或服务,也就是所谓的产品或服务。它发生在规划阶段之后,在此期间,一个团队确定了项目的关键目标,以及时间表和预算。 执行包括协调资源和衡量…

现在的00后测试员这么野?领导:这我真管不了...

马上就要迎来一年一度的毕业季,今年即将有1158万00后毕业生正式踏入职场。虽然00后是最近两年才晋升为新鲜出炉的职场小鲜肉,但在一众前辈的眼中,已经身居重任,期望他们能够成为职场中的一股清流,改变一贯以来的职场风…

I2C工作流程

FM33A0XX的I2C接口只用作主机,且不支持多主机,因此挂在总线上的其他设备都是从机。总线上总是由主机提供同步时钟SCL,SDA数据流方向可以是主机发送从机接收,或者从机发送主机接收。 数据发送流程 1、主机发起 START 时序 2、主机…

比较两种精细结构的迭代次数

( A, B )---3*30*2---( 1, 0 )( 0, 1 ) 让网络的输入有3个节点,训练集AB各由5张二值化的图片组成,让A中有6个1,B中全是0,排列组合A ,统计迭代次数的顺序。共有5005组不同的排列组合,但只有181个不同的迭代…

C#,生信软件实践(02)——DNA数据库EMBL格式详解及转为FASTA格式文件的源代码

>生信老白写的基础代码.fasta MAYBENOANYUSAGE 1 EMBL 1.1 EMBL组织 欧洲分子生物学实验室EMBL(European Molecular Biology Laboratory)1974年由欧洲14个国家加上亚洲的以色列共同发起建立,现在由欧洲30个成员国政府支持组成&#xf…

文字流光效果

提示&#xff1a;文字流光动画效果&#xff0c;炫酷标题 前言 提示&#xff1a;以下是本篇文章的代码内容,供大家参考,相互学习 一、html代码 <!DOCTYPE html> <html><head><meta http-equiv"content-type" content"text/html; charsetu…

文献阅读(50)—— Transformer 用于肺癌诊断预测

文献阅读&#xff08;50&#xff09;—— Transformer 用于肺癌诊断预测 文章目录 文献阅读&#xff08;50&#xff09;—— Transformer 用于肺癌诊断预测先验知识/知识拓展文章结构背景文章方法1. 文章核心网络结构2. Time Encoding ViT &#xff08;TeViT&#xff09;3. Tim…

【测试面试】软件测试技术面试,知己知彼百战百胜-成为offer收割机...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 软件测试面试题&am…

自动化测试中验证码问题如何解决?

经常会被问到如何解决验证码的问题&#xff0c;在此记录一下我所知道的几种方式。 对于web应用来说&#xff0c;大部分的系统在用户登录时都要求用户输入验证码&#xff0c;验证码的类型的很多&#xff0c;有字母数字的&#xff0c;有汉字的&#xff0c;甚至还要用户输入一条算…

贪心法——迪杰斯特拉算法

问题描述&#xff1a; 迪杰斯特拉算法Time Limit: 2000 MSMemory Limit: 5000 KB Description 给定n(n<500)个顶点,以及E(E<10000)条边&#xff0c;使用迪杰斯特拉算法计算顶点s到顶点t的最短路径.Input 第一行输入T表示有T组数据。每组数据第一行输入n、E、s、t&…

大数据图书推荐:Python数据分析与挖掘实战(第2版)

《Python数据分析与挖掘实战&#xff08;第2版&#xff09;》的配套学习视频&#xff0c;课程内容共分为基础篇&#xff08;第1~5章&#xff09;和实战篇&#xff08;第6~11章&#xff09;。 基础篇内容包括数据挖掘的概述、基本流程、常用工具、开发环境&#xff0c;Python数据…

7种超轻量级的Linux发行版,希望能够帮助你找到适合自己的操作系统

Linux是一种非常受欢迎的开源操作系统&#xff0c;而且有许多版本可以选择。有时候&#xff0c;你需要一种超轻量级的Linux发行版&#xff0c;它可以在资源有限的设备上运行&#xff0c;并且能够快速启动。本文将介绍7种超轻量级的Linux发行版&#xff0c;希望能够帮助你找到适…

【Python习题集4】字符串与正则表达式

字符串与正则表达式 一、实验内容二、实验总结 一、实验内容 1.输人一个字符串,将该字符串中下标为偶数的字符组成新串并通过字符串格式化方式显示。 (1)源代码 x input("请输入一个字符串&#xff1a;") y x[::2] print("下标为偶数的字符组成的新串为&…

1.goldeye百个靶机渗透(精写-思路为主)

1-goldeye 特别注明&#xff1a;本文章只用于学习交流&#xff0c;不可用来从事违法犯罪活动&#xff0c;如使用者用来从事违法犯罪行为&#xff0c;一切与作者无关。 文章目录 1-goldeye特别注明&#xff1a;本文章只用于学习交流&#xff0c;不可用来从事违法犯罪活动&#…

Multi-Band Blending

多频带融合&#xff08;Multi-Band Blending&#xff09;算法是一种图像融合技术&#xff0c;用于将两个或多个图像无缝地合并在一起&#xff0c;以创建一个平滑的过渡区域。该算法常用于图像合成、图像拼接和全景图像生成等应用中。 多频带融合算法基于频域的图像处理技术&am…

Three——三、动画执行、画布大小、渲染帧率和相机适配体验

动画渲染循环 threejs 可以借助 HTML5 的 API 请求动画帧 window.requestAnimationFrame 实现动画渲染。 请求动画帧window.requestAnimationFrame(实现周期性循环执行) // requestAnimationFrame实现周期性循环执行 // requestAnimationFrame默认每秒钟执行60次&#xff0c…

DJI RTK无人机采集后的文件分析:nav、bin、event、MRK文件

NAV文件&#xff1a; NAV文件是导航数据文件。它们通常存储有关飞行路径、GPS坐标、高度和其他相关数据的信息。这些数据可用于图像的地理参照、飞行分析或故障排除。 EVENT文件&#xff1a; EVENT文件记录了飞行过程中发生的各种事件&#xff0c;如无人机何时起飞&#xff0c…

在线办公大势所趋,细说3种主流云办公方式优劣

文章目录 前言在线协作&#xff1a;WPS优势方面部分缺点 远程控制&#xff1a;ToDesk优势方面部分缺点 云桌面&#xff1a;阿里云桌面优势方面部分缺点 总结 前言 云办公会不会在未来五到十年成为普遍现象&#xff1f;当我们在疫情期间不得不加入远程办公行列时&#xff0c;其…