【论文阅读】Can Large Language Models Empower Molecular Property Prediction?

news2024/11/16 21:48:24

文章目录

  • 0、基本信息
  • 1、研究动机
  • 2、创新性
  • 3、方法论
  • 4、实验结果

0、基本信息

  • 作者:Chen Qian, Huayi Tang, Zhirui Yang
  • 文章链接:Can Large Language Models Empower Molecular Property Prediction?
  • 代码链接:Can Large Language Models Empower Molecular Property Prediction?

1、研究动机

 分子属性预测得到巨大的关注,分子图能够被描述为图结构的数据或SMILES (Simplified Molecular-Input Line-Entry System)文本。LLMs的快速发展给NLP领域带来颠覆性变化,但是,LLM如何影响分子性质预测的探索仍处于早期阶段。

本文,从两个视角——零样本和少样本分子分类,通过LLMs生成分子原始SMILESD的新解释。

  • 首先提示LLM进行上下文分子分类并评估其性能。
  • 然后,我们使用LLM为原始SMILES生成语义丰富的分析和解释。文本解释可以作为分子的新表征。
  • 最后,利用它来微调多个下游任务的小规模LM模型

2、创新性

 由于分子可以表示为SMILES序列,因此使用具有强大文本理解能力的LLM来处理分子数据是一个不错的想法。简而言之,大模型在分子预测任务上的迁移。

 例如,对于给定分子的SMILES,ChatGPT可以准确地描述分子的功能组、化学性质和潜在的药物应用。如下图所示。

在这里插入图片描述

基本思想:

 对于所给的SMILES序列,设计合理的提示,提示LLM进行zero/few-shot 分类,并总结出新的表征,即Caption as new Representation,用新的表征在下游任务上微调小规模LMs。

3、方法论

 情境学习(ICL)已经成为NLP的新范式。使用包含以自然语言模板编写的多个示例作为输入的上下文,LLM可以对未看到的输入进预测,而不需要额外的参数更新。利用ChatGPT的ICL能力,通过设计的提示来帮助分子分类任务,如下图所示。

在这里插入图片描述

 这种模式使得通过改变演示和模板将人类知识融入LLM变得更加容易。

 在PTC数据集上,使用“毒性”、“癌症”和“有害”等术语进行关键字搜索,以检索ChatGPT为原始SMILES格式PTC数据集生成的所有解释。值得注意的是,观察到这些关键字中的大多数主要出现在标记为-1的条目中。这表明ChatGPT能够为原始SMILES字符串提供有意义和独特的专业解释,从而使下游任务受益。

 总之,利用ChatGPT来理解原始SMILES字符串并生成包含各个方面的文本描述;然后,微调预训练的小规模LM用于各种下游任务,例如分子分类和性质预测。

4、实验结果

 ChatGPT具有一定水平的少样本分子分类能力。然而,在整个实验中,发现ChatGPT的分类性能并不一致,对于相同的提示,不同的提示也有显着的影响的结果。因此,设计有效的提示,并聚合合理的先验信息实现更好的零样本和少样本分类至关重要的.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1396983.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java项目:10 Springboot的电商书城管理系统

作者主页:源码空间codegym 简介:Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 该系统分为前台展示和后台管理两大模块,前台主要是为消费者服务。该子系统实现了注册,登录,以及从浏览、下…

栈、队列专题

文章目录 栈栈的概述栈的实现栈在函数调用中的应用栈在表达式求值中的应用逆波兰表达式求值 栈在括号匹配中的应用有效的括号最长的有效括号删除字符串中的所有相邻重复项 如何获取栈内最小元素呢如何实现浏览器的前进和后退 队列队列的定义队列的实现循环队列队列的应用队列在…

解决百度地图在模拟器上运行报 java.lang.IllegalArgumentException: No config chosen问题

解决百度地图在模拟器上运行报 java.lang.IllegalArgumentException: No config chosen 问题 1. 问题复现 在近期公司使用模拟器(网易MuMu)进行项目演示时,在进入存在百度地图(Android版本 7.4.2版本)之后,页面出现奔溃,后台日志为&#xf…

比吸收率(SAR)

本文旨在介绍比吸收率(Specific Absorption Rate)的基本知识。搬运自https://www.antenna-theory.com。英语够用的朋友可以直接移步。感谢网站创始人Peter Joseph Bevelacqua教授的无私奉献。 ------------------我是分隔线------------------- 比吸收…

Halcon 一维测量

文章目录 算子矩形算子弧形算子移动到新的参考点 Halcon 案例测量保险丝的宽度(边缘对测量)使用助手进行测量 halcon 案例获取芯片引脚的个数平均宽度距离,连续两个边缘的距离(measure_pos )halcon 定位测量Halcon 测量…

23 SEMC外扩SDRAM

文章目录 23.1 SDRAM 控制原理23.2 SEMC 简介 23.1 SDRAM 控制原理 RT1052 系列芯片扩展内存时可以选择 SRAM 和 SDRAM 由于 SDRAM 的“容量/价格”比较高,即使用 SDRAM 要比 SRAM 要划算得多。 给 RT1052 芯片扩展内存与给 PC 扩展内存的原理是一样的 PC 上一般…

庞伟:《一本书读懂企业破产法》——企业危机解决之道

在当今复杂多变的市场环境中,企业破产问题日益凸显。如何妥善解决企业危机,保障各方利益,成为了业界关注的焦点恰逢北京市亿达律师事务所成功入选第一届北京市破产管理人协会并成为会员单位之际,为此,北京市亿达律师事…

(2023版)斯坦福CS231n学习笔记:DL与CV教程 (56) | 卷积神经网络

前言 📚 笔记专栏:斯坦福CS231N:面向视觉识别的卷积神经网络(23)🔗 课程链接:https://www.bilibili.com/video/BV1xV411R7i5💻 CS231n: 深度学习计算机视觉(2017&#xf…

多目标优化中常用的差分进化算法DE【2】

# 多目标优化中常用的进化算法 1、链接一 2、链接二 #后续继续补充多目标的差分进化算法MODE的应用 此链接介绍很详细,此处用来分享学习,后续有问题会继续进行补充。 如果你觉得不错,佛系随缘打赏,感谢,你的支持是…

(六)深入理解Bluez协议栈之“GATT Client Profile”

前言: 本章节我们继续介绍GATT Client Profile的实现,参考的程序是tools\btgatt-client.c,需要注意的一点,在./configure时,需要添加 --enable-test --enable-testing才会编译该c文件,编译完成后,生成的可执行程序为btgatt-client。本文主要以btgatt-client运行时可能会…

分布式ID(2):雪花算法生成ID

1 雪花算法简介 这种方案大致来说是一种以划分命名空间(UUID也算,由于比较常见,所以单独分析)来生成ID的一种算法,这种方案把64-bit分别划分成多段,分开来标示机器、时间等,比如在snowflake中的64-bit分别表示如下图(图片来自网络)所示: 41-bit的时间可以表示(1L&l…

ARM 1.16

TCP的特点 面向连接 面向连接,是指发送数据之前必须在两端建立连接。建立连接的方法是“三次握手”,这样能建立可靠的连接。建立连接,是为数据的可靠传输打下了基础。 仅支持单播传输 每条TCP传输连接只能有两个端点&#…

面试题16.15.珠玑妙算

前言 这两天突然发现力扣上还是有我能写出来的题的,虽说都是简单级别的(以及一道中等的题),但是能写出来力扣真的太开心了,(大佬把我这段话当个玩笑就行了),于是乎,我觉…

linux单机部署mysql(离线环境解压即可)

一、下载官网压缩包(tar.gz) MySQL :: Download MySQL Community Serverhttps://dev.mysql.com/downloads/mysql/根据自己的操作系统发行版本、位数、gclib版本、mysql版本来选择对应的压缩包 比如我是 linux系统debian10(官网只有linux ge…

Doris配置外表以及多个Hive外表的配置

1.场景分析 以Clickhouse、Doris、Starrocks等为代表的mpp分析数据库正在快速的兴起,以其高效查询、跨库整合能力收到广大技术人员的喜爱。本文主要浅显介绍下作者在使用Doris时,通过建立catlog进行跨库查询。 废话不多少,直接上代码 2.相关…

RIP基础实验配置

要使用RIP完成以上命令需求 1,首先划分ip地址 有图可见有四个网段需要划分 192.168.1.0/26 192.168.3.0/26 192.168.7.0/26 192.168.5.0/26 给两个骨干网段,给两个环回接口,由下图所示: 其次,规划好ip后在各个接口…

hash应用

目录 一、位图 1.1、引出位图 1.2、位图的概念 1.3、位图的应用 1.4、位图模拟实现 二、布隆过滤器 2.1、什么是布隆过滤器 2.2、布隆过滤器应用的场景 2.3、布隆过滤器的原理 2.4、布隆过滤器的查找 2.5、布隆过滤器的插入 2.6、布隆过滤器的删除 2.7、布隆过滤器…

操作系统-操作系统的运行机制(内核程序 应用程序 特权指令 非特权指令 内核态 用户态 变态)

文章目录 总览预备知识:程序是如何运行的?内核程序vs应用程序特权指令vs非特权指令内核态vs用户态用户态,内核态的切换小结 总览 预备知识:程序是如何运行的? 转换为机器码放入内存,然后按顺序执行 内核…

跟着pink老师前端入门教程-day06

十一、CSS 的背景 通过CSS背景属性,可以给页面元素添加背景样式 背景属性可以设置背景颜色、背景图片、背景平铺、背景图片位置、背景图像固定等。 11.1 背景颜色 background-color 属性定义了元素的背景颜色 一般情况下元素背景颜色默认值是transparent&…

[足式机器人]Part2 Dr. CAN学习笔记- Kalman Filter卡尔曼滤波器Ch05-1+2

本文仅供学习使用 本文参考: B站:DR_CAN Dr. CAN学习笔记 - Kalman Filter卡尔曼滤波器 Ch05-12 1. Recursive Algirithm 递归算法2. Data Fusion 数据融合Covarince Matrix协方差矩阵State Space状态空间方程 Observation观测器 1. Recursive Algirithm…