华东理工李洪林课题组开发 Macformer,加速大环类药物发现

news2024/9/20 1:18:29

大环类化合物是指由 12 个以上原子组成的小分子或肽。相较于其他小分子化合物,大环类化合物在结构和性能上有着诸多优势,也因此被视为各类靶点的潜在治疗药物。

基于药物化学合成的大环类似物是大环类药物的一个主要来源。然而,由于合成方法匮乏、合成难度高、参考资料少,大环类药物的开发鲜有人问津。

为此,华东理工大学的李洪林课题组基于 Transformer 开发了 Macformer。Macformer 成功将无环药物菲卓替尼大环化,得到了药效更强的新化合物,为药物开发提供了新方法。

作者 | 雪菜

编辑 | 三羊

大环类药物的前世今生

大环类化合物 (Macrocycles) 是指由 12 个以上原子组成的小分子或肽。这类化合物有着高分子量和大量氢键供体,有着更强的亲和力、选择性和药理学特性。大环类药物已经被视为各类靶点的潜在治疗药物,如激酶 (Kinases)、蛋白酶 (Proteases) 和 G 蛋白偶联受体 (G-Protein-Coupled Receptors)。

大环类药物格尔德霉素(左)和阿奇霉素(右)

大环类药物格尔德霉素(左)和阿奇霉素(右)

除天然的大环类药物外,基于药物化学合成的类似物也是大环类药物的一个主要来源。将已知的无环 (Acyclic) 药物大环化,就可以直接有效地得到新的大环药物,并实现所需要的药理学性能。然而,由于合成方法的匮乏和合成难度高,大环类药物在药物设计中仍很少被人关注。

目前线性分子的大环化主要依赖经验推断。而且,即使文献会呈现出最终的合成结果,但药物的合成和推断过程却总是语焉不详。不透明、不标准的合成过程,提高了行业的门槛,阻碍了大环类药物的开发。

深度学习虽然在药物开发的不同阶段中展现了巨大的潜能,但是神经网络的训练需要大量数据。考虑到临床批准的大环类药物不足 90 个,因此尚没有研究利用深度学习算法进行药物的大环化。

为此,华东理工大学的李洪林课题组基于 Transformer 开发了 Macformer,以实现线性分子的大环化。他们将同一化合物用不同简化分子线性输入规范 (SMILES) 表示,实现了数据的扩充。

随后,以美国食品药品监督管理局 (FDA) 通过的 JAK2 抑制剂菲卓替尼 (Fedratinib) 为例,利用 Macformer 将其大环化,得到了新的大环化合物。这一化合物有着更好的选择性和药代特性,因此所需剂量较菲卓替尼更低。这一成果已发表于 「Nature Communication」。 

图片

这一成果已发表于 「Nature Communication」

获取论文:

https://www.nature.com/articles/s41467-023-40219-8

关注公众号,后台回复「大环药物」获取完整论文 PDF

实验过程

数据集:数据扩充的 ChEMBL 数据集

首先,研究人员从 ChEMBL 数据库收集了 18,357 个有生物活性的大环化合物,并进行了筛选。随后,遍历大环化合物的任意两个化学键,将其连接子拆分,找到对应的无环化合物。最终共得到 237,728 对大环-无环化合物,作为本研究的数据集。 

图片

Macformer 拆解大环化合物的过程

任一化合物均有特定的 SMILES 表达式。然而,最近的研究显示,使用化学上相同但句法不同的一组随机 SMILES 表达式进行模型训练,可以显著提高深度学习模型的性能。研究人员将扩充 2、5、10 倍的数据与原始数据进行了对比,所有数据在 50,000 step 之后均有较好的收敛效果。 

图片

数据扩充流程

模型架构:Transformer 的编解码

Macformer 基于 Transformer 架构实现。输入化合物和目标化合物的 SMILES 序列都被嵌入到可训练的矩阵中,并通过正余弦函数进行位置编码。

输入化合物的嵌入矩阵被馈送到编码器中生成潜在表示 (Latent Representation) ,以初始化编码过程。每个编码器层由一个多头注意力层和位置前馈网络组成。

Macformer 的最终目标是通过交叉熵损失函数,最小化预测序列和对应目标序列之间的差距,输出预测的大环化合物

图片

Macformer 的架构

对比研究:ChEMBL 数据集

研究人员将 Macformer 和非深度学习模型 MacLS 进行了对比。在输入无环化合物之后,二者均能输出一个大环的类似物。因此,大环化合物的化学有效性、新颖性和唯一性将作为模型性能的评价标准

和原始数据集对比,扩充 2 倍的数据集全面提升了模型的性能,尤其是在回收率 (96.09% vs. 54.85%)、有效性 (80.34% vs. 66.74%) 和连接子新颖性 (58.91% vs. 40.56%) 上,而数据集的进一步扩充没有继续提高模型的性能。 

图片

Macformer 和 MacLS 基于 ChEMBL 的性能对比

MacLS_self 使用非循环的 SMILES 从头开始生成构象,而 MacLS_extra 会从目标大环化合物的低能量 3D 结构中提取构象。

MacLS_self 的有效性仅有 17.05%,而 MacLS_extra 的化合物新颖性和唯一性超越了 Macformer。但是,MacLS 只能从训练集中搜索连接子,因此连接子的新颖性为 0。而且,MacLS 回收大环化合物的比率也很低,不足 5%。 

 

对比研究:ZINC 数据集

进一步的,两个模型在外部数据集 ZINC 上进行了对比。扩充 5 倍的数据集训练的 Macformer 模型有着 80% 以上的回收率、84% 以上的有效性和 99% 以上的新颖性。上述结果说明数据扩充后的 Macformer 有着优秀的泛化能力。 

图片

Macformer 和 MacLS 基于 ZINC 的性能对比

由于 MacLS 没有 Macformer 的学习能力,其在不同数据集的结果基本类似。 

化学分布:Macformer 与输入更相似

如果不考虑连接子的新颖性,Macformer 和 MacLS 都有生成新的大环化合物的能力。因此,研究人员对比了二者生成的化合物在化学空间的分布。

首先,通过谷本系数 (Tanimoto coefficient) 对比了化合物之间的相似性。由于无环化合物和大环化合物结构上的相似性,模型生成的绝大多数化合物谷本系数均在 0.7 以上。然而,Macformer 生成化合物与原始化合物的结构相似性较 MacLS_extra 更高。 

图片

模型的谷本系数对比 (a) 和 UMAP 图 (b)

这一结果比较反常,因为 Macformer 能够推断出训练集中不存在的连接子,而 MacLS 不具备这一能力。为此,研究人员利用统一流形逼近与投影算法 (UMAP) 进行了数据降维。结果显示,Macformer 生成的新连接子均分布在 ChEMBL 训练集附近。 

实验验证

药物开发:菲卓替尼的大环化

近年来,大环类化合物作为潜在的激酶抑制剂饱受关注。为验证模型的预测性能,研究人员利用 Macformer 设计了 JAK2 的抑制剂。JAK2 属于 JAK 家族激酶,是治疗骨髓增生性肿瘤和类风湿性关节炎的重要靶点。

模型的输入为菲卓替尼,这是一种用于治疗骨髓纤维化的小分子药物。菲卓替尼对 JAK2 的选择性优于其他 JAK 激酶,但对于其他激酶的选择性较差,导致其他副作用。

大环化的连接点设置为两个末端苯环,并去除可能不利于与 Asp994 靶点接触的叔丁基黄酰胺。为了增加预测的大环药物的多样性,将每个源 SMILES 序列扩充 10 倍。最终,Macformer 输出了10,700 个结果,包括 281 个新的大环类药物。 

图片

菲卓替尼的大环化过程

在评估了大环类药物和靶点的结合情况,及合成可行性后,研究人员最终选择了 3 种化合物进行合成评估测试。其中,化合物 1 的连接子尚未报道于大环药物的设计或是 JAK2 抑制剂的开发中

而在 MacLS 设计的 300 个大环药物中,没有发现这 3 个化合物,这再一次证明了深度学习算法在新药设计的潜力。 

体外评估:酶和细胞水平的活性

随后,评估这 3 种化合物对 JAK2 的活性,其半抑制浓度 (IC50) 分别为 0.07、0.364 和 0.006  μM。对最有效的 1 和 3 进行 100 μM 的特异性评估,分别只有 10 和 17 种野生型激酶受到抑制,而菲卓替尼对 34 种野生型激酶有影响,说明化合物 1 和 3 的选择性更好。 

图片

化合物 1、3 和菲卓替尼对 468 种激酶的选择性测试

同时,还对化合物 1-3 对 JAK2 依赖的细胞的抗增殖性能进行了评价。结果显示,化合物 1 和 3 可以 JAK2 依赖细胞的增殖,且剂量较菲卓替尼更低。 

体内评估:药代动力学测试

最后,研究了化合物 1、3 和菲卓替尼静脉注射 (iv, 5 mg/kg) 和口服 (po, 5 mg/kg) 的药代动力学 (PK,  pharmacokinetic)。

除生物利用度 (9.4% vs. 11.7%) 外,化合物 3 全面优于菲卓替尼。同时,化合物 1 在口服特性上也有优势,如全身暴露 (106.00 vs. 50.19 h*ng/mL) 和生物利用度 (14.1% vs. 11.7%)。上述结果说明,大环化有利于提升菲卓替尼类药物的代谢稳定性。 

图片

化合物 1、3 和菲卓替尼的药代动力学参数

活体测试:化合物 3 对炎症的抑制

据报道,JAK2 的过表达会导致炎症性肠病 (IBD),也就意味着抑制 JAK2 的活动可能有助于炎症性肠病的治疗。研究人员在小鼠模型上进行了大环类药物的测试实验,以评估其在 IBD 治疗中的作用。

根据药代动力学的测试结果,菲卓替尼的给药剂量是化合物 3 的两倍。结果显示,化合物 3 和菲卓替尼都缓解了 IDB 引起的体重减轻,且实验组的疾病活动指数从第 8 天起显著降低。

最后用 HE 染色分析炎症的严重程度。对照组出现了显著的炎症反应,包括炎症细胞浸润、杯状细胞丢失等,而实验中炎症反应较轻,结肠结构完整。 

图片

不同组别的结肠 HE 染色结果

自左至右分别为:空白组;对照组;药物 SASP 治疗:化合物 3 治疗;菲卓替尼治疗

上述结果说明,Macformer 推断得到的大环化合物在药代动力学和选择性上优于传统药物,且可以用更低的剂量实现疾病治疗。

高药效、难合成,大环的喜与悲

截止 2020 年,美国食品药品监督管理局 (FDA) 共批准了 67 种大环类药物,占所有批准药物的 4%。其中,有 59 种是天然的大环类药物,非天然的仅 8 种。2008 年,FDA 批准了首款非天然的大环类药物,普乐沙福 (Plerixafor),用于肿瘤治疗。

大环类药物的主要适用症为传染病,占比 44.4%,其后分别为肿瘤 (20.8%) 和抗真菌 (8.3%) 。近年来,大环类药物在抗肿瘤方向的使用激增。2007 年之前仅有 4 种,而其后批准了 11 种。

图片

FDA 批准的大环类药物的适用症

大环类药物能够在半刚性、预组织的结构中提供多样的功能和复杂的化学结构,这可以增加大环类药物与传统小分子难以结合的靶点的亲和力和选择性,进而提升药效。而且,某些大环类药物能够调整构象,使其适应外部环境。这一能力提高了其水溶性和细胞渗透性。

然而,大环类药物的合成却很复杂。大环结构在增强与特定靶点结合能力的同时,也导致了环张力 (Ring Strain)、空间相互作用和非共价的跨环相互作用,使得分子结构和性质的预测变得更加困难

AI 在药物开发中的应用越来越广泛。然而,有限的数据量往往会限制 AI 的性能。本研究中,研究人员使用随机的 SMILES 表达式进行了数据扩充,在保障数据集丰富度的同时,提升了 Macformer 的预测性能。

未来,随着人们对药物结构和性质的理解不断深入,AI 在新药研发过程中会有更高的参与度,为人们的健康保驾护航。

参考链接:

[1]https://www.cambridgemedchemconsulting.com/resources/hit_identification/macrocycles/macrocycles.html

[2]https://pubs.acs.org/doi/10.1021/acs.jmedchem.3c00134

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1231495.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

力扣刷题-二叉树-完全二叉树的节点个数

222.完全二叉树的节点个数 给出一个完全二叉树,求出该树的节点个数。 示例 1: 输入:root [1,2,3,4,5,6] 输出:6 示例 2: 输入:root [] 输出:0 示例 3: 输入:root [1]…

拼图游游戏代码

一.创建新项目 二.插入图片 三.游戏的主界面 1.代码 package com.itheima.ui;import java.awt.event.ActionEvent; import java.awt.event.ActionListener; import java.awt.event.KeyEvent; import java.awt.event.KeyListener; import java.util.Random;import javax.swing…

【Spring进阶系列丨第三篇】Spring核心技术之 IoC 与 DI 实战案例

前言 在上一篇文章中,我们学习了IoC与DI的相关概念与原理,现在让我们 以HelloWorld为例,编写一个程序,让创建对象的工作由Spring帮助我们创建。 一同感受一下Spring框架带给我们开发的便捷性。 文章目录 前言一、编写Java类二、传…

IDEA调用接口超时,但Postman可成功调用接口

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

基于非洲秃鹫算法优化概率神经网络PNN的分类预测 - 附代码

基于非洲秃鹫算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于非洲秃鹫算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于非洲秃鹫优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针对PNN神…

消息中间的应用场景

1、异步处理 比如用户在电商网站下单,下单完成后会给用户推送短信或邮件,发短信和邮件的过程就可以异步完成。因为下单付款是核心业务,发邮件和短信并不属于核心功能,并且可能耗时较长,所以针对这种业务场景可以选择先…

趣学python编程(六、关于蓝桥杯比赛)

蓝桥杯全国软件和信息技术专业人才大赛简称“蓝桥杯”,是由工业和信息化部人才交流中心举办的国内最大的信息技术竞赛。为促进中小学科技创新,提升中小学生逻辑思维,发现和培养面向未来的科技精英人才。 蓝桥杯介绍 蓝桥杯全国软件和信息技术…

Selenium安装WebDriver最新Chrome驱动(含116/117/118/119)

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

贪吃蛇代码

一.准备 1.新建项目 2.放进照片 3.创建两个包放置图片类和入口类 二,游戏界面 package com.snake.view;import java.awt.Color; import java.awt.EventQueue; import java.awt.Font; import java.awt.Frame; import java.awt.Graphics; import java.awt.Image; i…

前缀和(c++,超详细,含二维)

前缀和与差分 当给定一段整数序列a1,a2,a3,a4,a5…an; 每次让我们求一段区间的和,正常做法是for循环遍历区间起始点到结束点,进行求和计算,但是当询问次数很多并且区间很长的时候 比如,10^5 个询问和10^6区间长度,相…

[JDK工具-2] javap 类文件解析工具-帮助理解class文件,了解Java编译器机制

文章目录 1. javap -version 版本信息2. javap -verbose 输出附加信息3. javap -l 显示行号和局部变量列表4. javap -c 对代码进行反汇编(或叫反编译生成汇编代码,一般说反编译是生成java代码),分解方法代码,也就是显示…

电机应用开发-PID控制器参数整定

PID控制器参数整定 比例调节:调节作用快,系统一出现偏差,调节器立即将偏差放大输出。 积分调节:输出变化和输入偏差的积分成正比。输出不仅取决于偏差大小,还取决于偏差存在的时间。只要有偏差存在,尽管偏差…

【23真题】超难985!做完感觉没学过!

本套试卷难度分析:22年西北工业大学827考研真题,我也发布过,若有需要,戳这里自取!本套试题内容有难度,题目考察全为大题,题目不多!但是题目都很新颖,状态方程的题目考察较…

MySQL为什么选择了B+树

首先MySQL的数据**(索引记录)**是存在磁盘里的,磁盘读取非常慢,所以要尽可能减少磁盘操作,因此我们需要更好的利用索引。 首先索引按顺序排列了数据,那么很显然最好的查找方式是二分查找,数组自…

解决证书加密问题:OpenSSL与urllib3的兼容性与优化

在使用客户端证书进行加密通信时,用户可能会遇到一些问题。特别是当客户端证书被加密并需要密码保护时,OpenSSL会要求用户输入密码。这对于包含多个调用的大型会话来说并不方便,因为密码无法在连接的多个调用之间进行缓存和重复使用。用户希望…

改进YOLOv8:结合ConvNeXt V2骨干网络!使用MAE共同设计和扩展ConvNet

🗝️YOLOv8实战宝典--星级指南:从入门到精通,您不可错过的技巧   -- 聚焦于YOLO的 最新版本, 对颈部网络改进、添加局部注意力、增加检测头部,实测涨点 💡 深入浅出YOLOv8:我的专业笔记与技术总结   -- YOLOv8轻松上手, 适用技术小白,文章代码齐全,仅需 …

java桌面程序

目标之一是把打印导出的功能最终用java实现一套,首先选定javafx,因为idea默认创建工程就带的javafx,没找到swing。 创建工程,这里要选1.8,高版本jdk默认不带fx 实现主界面的代码 package sample;import javafx.app…

【DevOps】Git 图文详解(五):远程仓库

Git 图文详解(五):远程仓库 1.远程用户登录1.1 🔑 远程用户登录:HTTS1.2 🔑 远程用户登录:SSH 2.远程仓库指令 🔥3.推送 push / 拉取 pull4.fetch 与 pull 有什么不同 ? …

通过easyexcel实现数据导入功能

上一篇文章通过easyexcel导出数据到excel表格已经实现了简单的数据导出功能,这篇文章也介绍一下怎么通过easyexcel从excel表格中导入数据。 目录 一、前端代码 index.html index.js 二、后端代码 controller service SongServiceImpl 三、功能预览 四、后端…