横向对比 11 种算法,多伦多大学推出机器学习模型,加速长效注射剂新药研发

news2024/10/1 21:34:30

内容一览:长效注射剂是解决慢性病的有效药物之一,不过,该药物制剂的研发耗时、费力,颇具挑战。对此,多伦多大学研究人员开发了一个基于机器学习的模型,该模型能预测长效注射剂药物释放速率,从而提速药物整体研发流程。

关键词:长效注射剂 机器学习 嵌套交叉验证

本文首发自HyperAI超神经微信公众平台~

作者 | 缓缓

编辑 | 三羊

据《中国居民营养与慢性病状况报告(2020 年)》显示,2019 年我国因慢性病导致死亡占总死亡的 88.5%,可见,慢性病已成为威胁人类健康的一大「杀手」。以慢性病中被学者们称为「人类最糟糕疾病」的精神分裂症为例,患者要想完全康复,就需要进行较长时间的维持治疗。但这期间,患者服药可能由于各种原因中断,从而造成复发。

为解决慢性病人服药依从性差的情况,长效注射剂问世,该药是将足够剂量的药物溶解于某种制剂中,通过注射途径进入体内形成小型药物「储存仓库」,再在体内缓慢释放药物,起到稳定的治疗作用。与传统药物相比,长效注射剂有给药间隔长、作用迅速、药物剂量稳定等优点。

但另一方面,这种新型药物的研发也颇具挑战,比如,为了令药物在规定时间范围内在体内达到最佳释放量,就需对多种候选制剂进行大量、广泛实验。此过程繁琐且耗时长,成为长效注射剂进一步发展的瓶颈。

近期,来自多伦多大学 (University of Toronto) 的研究人员开发了一个机器学习模型,相关实验成果显示该模型能准确预测长效注射剂药物释放速率,有效加速长效注射剂研发。目前该研究已发布在《Nature Communications》期刊上,标题为「Machine learning models to accelerate the design of polymeric long-acting injectables」。

请添加图片描述目前该成果已发布在《Nature Communications》

论文地址:

https://www.nature.com/articles/s41467-022-35343-w#Abs1

实验概述

长效注射剂制剂种类多样,一般是脂类和合成聚合物。下图展示了传统和数据驱动的长效注射剂制剂研发方法对比。

请添加图片描述图1:传统和数据驱动的长效注射剂制剂研发方法示意图

a 图:美国食品及药物管理局批准的长效注射剂制剂给药途径。

b 图:传统长效注射剂制剂研发的典型试错循环。

c 图:本研究的工作流程概览,即用训练好的机器学习模型加速长效注射剂制剂研发过程。

本实验数据集由先前发表的研究成果构建,同时还添加了由 Web of Science 引擎中搜索出来的外部来源数据。具体来看,数据集包括了 181 种药物及 43 种药物-聚合物组合释放量(给定时间内释放的药物分子数量)。同时,研究人员将构建好的数据集分为两个子集,分别用于模型训练和测试。

长效注射剂数据集
发布机构:多伦多大学
包含数量:181 种药物和 43 种药物-聚合物组合释放量
预估大小:394.1 KB
发布时间:2022 年
下载地址:hyper.ai/datasets/23625****

实验过程

本项研究中,研究人员共训练了 11 种机器学习算法,包括多元线性回归 (MLR)、最小绝对值收缩和选择算子 (Lasso)、偏最小二乘回归 (PLS)、决策树 (DT)、随机森林 (RF)、光梯度增强机 (LGBM)、极端梯度增强 (XGB)、自然梯度增强 (NGB)、支持向量回归 (SVR)、 k 最近邻算法 (k-NN) 以及神经网络 (NN)。

模型选择

为了评估这些机器学习模型的预测性能,研究人员采用了嵌套交叉验证的方法,该方法包括内部(训练和验证)和外部(测试)循环两部分。具体过程为,研究人员先将数据集按照药物-聚合物组合进行分组,再分别对每个机器学习模型进行 10 次嵌套交叉验证实验。

最终,各个机器学习模型在内部和外部嵌套交叉验证循环中的预测性能总结如下表 1 和图 2 所示。表 1 为嵌套交叉验证 (n=10) 中,使用不同机器学习算法预测药物释放后得到的平均绝对误差 (MAE) 值以及平均标准误差 (σM,括号内显示)。从表中可以看到,基于树 (tree-based) 的机器模型整体上要比线性、基于实例和深度学习的模型更加准确 (MAE<0.16)。

请添加图片描述
表1:各机器学习模型嵌套交叉验证中预测性能情况

图2为嵌套交叉验证 (n=10) 中获得的药物释放预测量的绝对误差 (AE) 值。结合表 1 和图 1 的信息,基于 LGBM 的模型在内部和外部循环中 MAE 值以及 AE 值均为 11 个模型中最小。因此,研究人员认为基于 LGBM 的模型是预测性能最好的模型。

请添加图片描述

图 2:各算法模型整体预测性能情况

图中方框内的黑色圆圈和黑色虚线分别代表每个模型的 MAE 值和 AE 值。

模型优化

为了进一步提高机器学习模型的泛化能力,研究人员又通过聚类分析对 17 个特征的 LGBM 模型进行了优化、改进。

这里他们采用了最远邻聚类算法 (farthest neighbor clustering algorithm),如下图所示,将输入特征排列成一个层次结构,研究人员发现 17 个特征中存在冗余。经过改进后,最终确定 15 个特征的 LGBM 模型表现最优。

请添加图片描述
图 3:初始17个输入特征的Spearman相关系数热力图

深蓝色表示绝对 Spearman 相关系数 (根据等级资料研究两变量间相关关系的方法) 为 1,粉色表示绝对 Spearman 相关系数为 0。热力图旁边附有一个树形图,显示通过聚合层次聚类分析确定的特征集群的层次结构。

实验结果

得到上述最优模型后,研究人员进行了两项测试,其一是使用该模型预测某一种长效注射剂药物释放曲线,其二是使用该模型预测测试集中药物-聚合物的药物释放曲线,并将得到的结果分别与实验药物释放曲线进行比较,结果如下图所示。

图 4 显示了某种所选长效注射剂的预测和实验药物释放曲线的比较,图 5 则显示了药物-聚合物的药物释放曲线和实验药物释放曲线比较,可以看到在两种情况下,预测值和实验值均基本一致,因此,研究人员认为基于 LGBM 算法的模型能够准确预测长效注射剂药物释放速率。

请添加图片描述
图 4:数据集中长效注射剂预测和实验药物释放曲线对比

请添加图片描述
图 5:药物-聚合物预测和相应实验药物释放曲线对比

加速联盟:助力科研新范式落地

值得注意的是,本研究成果的作者 Christine Allen 以及 Alán Aspuru-Guzik 都来自加速联盟 (The Acceleration Consortium,AC)。加速联盟诞生于 2021 年,是学术界、工业界和政府之间的一项新的全球性合作,总部位于加拿大多伦多大学,其愿景是利用 AI 和机器人技术加速发现和设计新材料和分子。

「我们的目标是加速科学发展,」加速联盟主任 Alán Aspuru-Guzik 称,「为了实现这一目标,我们意识到可以将汽车自动驾驶的思路扩展到自动化实验室,利用 AI 和自动化技术用更智能的方式进行实验。

请添加图片描述
图 6:加速联盟,一位科学家从自动固体分配机器人中取出预先分配好的试剂

值得关注的是,就在上个月加速联盟刚刚获得了加拿大首席研究卓越基金 (Canada First Research Excellence Fund,CFREF) 2 亿美元的拨款,该笔拨款将用于支持联盟「自动驾驶实验室」(self-driving labs) 领域的相关工作。对此,多伦多大学校长 Meric Gertler 谈道,「这些对 AI 驱动研究和创新方面的重大投资,有望改善加拿大乃至全世界人民的生活」。

本研究代码地址:

https://github.com/aspuru-guzik-group/long-acting-injectables

本文首发自HyperAI超神经微信公众平台~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/544837.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件物料清单:打开软件资产黑匣子的关键钥匙

大家有没有遇到过&#xff0c;手机被免费召回维修的情况&#xff1f; 有些人可能遇到这样的问题&#xff0c;手机购买一段时间后&#xff0c;突然收到手机品牌官方发布的通知&#xff1a;听筒模块上的某个组件可能会发生故障&#xff0c;会出现拨打或接听电话时听筒发不出声音的…

接口自动化【五】(HandleRequests类的封装,及postman上下接口依赖的初步认识)

文章目录 前言一、封装发送请求的操作二、迷惑的知识点三、postman的全局变量机制总结 前言 所有的封装就是一种思想&#xff0c;这种思想能不能想到&#xff0c;其实跟写代码建立思维有很大的关系。 下面也是我学到的一种思想&#xff0c;其中对每个函数有解读。以及易错点的…

算法小课堂(九)分支限界法

一、概述 1.1概念 分支限界法是一种求解最优化问题的算法&#xff0c;常以广度优先或以最小耗费&#xff08;最大效益&#xff09;优先的方式搜索问题的解空间树。其基本思想是把问题的可行解展开&#xff0c;再由各个分支寻找最佳解。 在分支限界法中&#xff0c;分支是使用广…

Go 语言核心编程-环境入门篇

第 1 章 Golang 开山篇 1.1 Golang 的学习方向 Go 语言&#xff0c;我们可以简单的写成 Golang 1.2 Golang 的应用领域 1.2.1区块链的应用开发 1.2.2后台的服务应用 1.2.3云计算/云服务后台应用 1.3 学习方法的介绍 1.4 讲课的方式的说明 努力做到通俗易懂注重 Go 语言体系&…

【软件测试项目】湖南交警一网通测试计划_2.0正版

目录 一、引言 1.1 编写目的 1.2 项目背景 1.3 适用范围 1.4 专业术语 二、测试任务 2.1 测试范围 2.2 测试目标 2.3 参考文档 2.4 提交文档(交付件) 三、测试进度 四、测试资源 4.1 人力资源 4.2 环境资源 4.3 测试工具 五、测试策略 5.1 功能测试 5.2 压力…

vue中 process.env与process.VUE_CLI_SERVICE

在vue中设置环境变量离不开process.env属性&#xff0c;那么如何设置自定义环境变更呢&#xff1f; 可以通过设置.env文件或者借助process.VUE_CLI_SERVICE来设置 process process 对象是一个 global &#xff08;全局变量&#xff09;&#xff0c;提供有关信息&#xff0c;控…

基于差分进化算法的微电网调度研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

Java经典笔试题—day12

Java经典笔试题—day12 &#x1f50e;选择题&#x1f50e;编程题&#x1f95d;二进制插入&#x1f95d;查找组成一个偶数最接近的两个素数 &#x1f50e;结尾 &#x1f50e;选择题 (1)以下方法&#xff0c;哪个不是对add方法的重载? public class Test {public void add( in…

智慧井盖监测终端,智能井盖-以科技解决智慧城市“顽疾”,守护城市生命线

平升电子智慧井盖监测终端,智能井盖-以科技解决智慧城市“顽疾”,守护城市生命线-智慧井盖&#xff0c;实现对井下设备和井盖状态的监测及预警&#xff0c;是各类智慧管网管理系统中不可或缺的重要设备&#xff0c;解决了井下监测环境潮湿易水淹、电力供应困难、通讯不畅等难题…

MySQL主从复制原理

一、概述 1、什么是主从复制 主从复制是用来建立一个和 主数据库完全一样的数据库环境称为从数据库&#xff1b;主数据库一般是准实时的业务数据库。 2、主从复制的作用 高可用&#xff0c;实时灾备&#xff0c;用于故障切换。比如主库挂了&#xff0c;可以切从库。读写分离…

nginx配置监听443端口,开启ssl协议,走 https 访问

本文目录 前言一、检查 linux 服务器上的 nginx 是否安装 ssl 模块二&#xff1a;为 nginx 安装 ssl 模块三、nginx 开启 443 端口监听&#xff08;https配置&#xff09;成功配好后的效果如下遇到的问题一&#xff1a;证书无效遇到的问题二&#xff1a;连公司的网络走 https 能…

飞书自建无需代码连接Flomo的方法

飞书自建用户使用场景&#xff1a; 公司的飞书群里&#xff0c;有一个名为“新产品开发”的群组&#xff0c;用于讨论公司新产品的开发。该群组中设置了一个机器人&#xff0c;名为“新产品助手”。当群组成员在讨论中需要记录一个新的产品想法时&#xff0c;他们可以这个机器人…

[Halcon3D] 主流的3D光学视觉方案及原理

&#x1f4e2;博客主页&#xff1a;https://loewen.blog.csdn.net&#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01;&#x1f4e2;本文由 丶布布原创&#xff0c;首发于 CSDN&#xff0c;转载注明出处&#x1f649;&#x1f4e2;现…

STM32学习过程记录11——基于STM32G431CBU6硬件SPI+DMA的高效WS2812B控制方法

一种高效的WS2812B控制算法——基于STM32G431CBU6的SPIDMA 1.WS2812B介绍 ws2812b是一款集控制电路与发光电路于一体的智能外控LED光源&#xff0c;采用单线归0码协议&#xff0c;每个像素点的三基色颜色可实现256级亮度显示。速率能达到1024pixel 30fps / s&#xff0c;故被…

什么是可信时间戳?可信时间戳电子取证有效吗?

电子数据具有脆弱性、易变性、隐蔽性、载体多样性等特点&#xff0c;容易被复制、删除、篡改且难以被发现。因此&#xff0c;电子数据在实际的司法认定过程中&#xff0c;很难准确鉴定其生成的时间以及内容的真实性、完整性。可信时间戳是一种公认的技术手段&#xff0c;可为电…

拉格朗日插值定理

拉格朗日插值法是一种函数逼近方法&#xff0c;通过已知的数据点构建一个多项式函数&#xff0c;该函数能够恰好经过这些数据点。它可以用于插值&#xff0c;即根据给定的离散数据点推断出未知函数在其它点上的取值。拉格朗日插值法的优点是计算简单&#xff0c;容易理解和实现…

从初级软件测试,到高级软件测试的必经之路

作为软件质量控制中的重要一环&#xff0c;软件测试工程师基本处于"双高"地位&#xff0c;即&#xff1a;地位高、待遇高&#xff0c;而随着软件测试行业等级越来越专业化&#xff0c;软件测试工程师也随即被分为不同的等级&#xff0c;即&#xff1a;初级测试工程师…

《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解

《SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection》论文阅读理解 领域&#xff1a;用于医学图像的异常检测 论文地址&#xff1a;SQUID: Deep Feature In-Painting for Unsupervised Anomaly Detection 目录 《SQUID: Deep Feature In-Painting for Un…

5月19号软件资讯更新合集.....

ohUrlShortener 短链接系统 v2.0 发布 | 指定「打开方式」功能支持 距上一次更新版本差不多两个月&#xff0c;ohUrlShortener 短链接系统与昨天晚上正式发布 v2.0 版本 这个版本主要的变化&#xff1a; 启动性能优化&#xff1a;在短链接数量持续上升之后&#xff0c;启动系…

Halcon 算子 select_shape_std 和 select_shape_xld区别

文章目录 1 select_shape_std 算子介绍2 select_shape_xld算子介绍3 select_shape_std 和 select_shape_xld区别4 Halcon 算子的特征 Features 列表介绍1 select_shape_std 算子介绍 select_shape_std (Operator) Name select_shape_std — Select regions of a given shape.Si…