英国皇家植物园采用机器学习预测植物抗疟性,将准确率从 0.46 提升至 0.67

news2024/11/16 10:18:52

内容一览:疟疾是严重危害人类生命健康的重大传染病,研究人员一直在致力于寻找新的植物源性抗疟疾化合物,以研发相关药物。近期英国皇家植物园利用机器学习 算法 有效预测了植物抗疟性,该研究成果目前已发表在《Frontiers in Plant Science》期刊上。
关键词:植物学 抗疟疾 支持向量

作者 | 缓缓
编辑 | 三羊

本文首发自 HyperAI 超神经微信公众平台~

疟疾是一种肆虐全球的寄生虫病,它通过蚊媒传播,其发病率以及致死率始终在虫媒传播疾病中居高不下。根据最新的《世界疟疾报告》,2021 年全球疟疾流行进一步加剧,全年共有 2.47 亿例新发病例,预计死亡病例 61.9 万人。

目前全球仍以药物治疗作为主要的疟疾防治手段,并且很多药物的抗疟疾活性天然分子都来源于植物之中,因此,研究人员们一直致力于寻找新的植物源性抗疟疾化合物,不过,为了达到这个目的,需要对大量的植物进行筛选和测试,这个过程非常耗时且昂贵。

近期,英国皇家植物园 (Royal Botanic Gardens, Kew) 及圣安德鲁斯大学 (University of St Andrews) 的研究人员证明了机器学习算法能够有效预测植物抗疟性,且准确率为 0.67,相较传统试验方法的 0.46,已有了明显提升。目前,该研究成果已发表在《Frontiers in Plant Science》期刊上,标题为《Machine learning enhances prediction of plants as potential sources of antimalarials》。

请添加图片描述

该研究成果已发表在《Frontiers in Plant Science》上

数据集及抽样偏差校正

本实验重要目标之一是评估是否可以用植物特征数据训练机器学习模型来预测植物抗疟活性。首先,研究人员提供了一个数据集,该数据集基于龙胆目的 3 个花卉植物科——夹竹桃科、马钱科和茜草科的 21,100 个植物物种。 这些植物已被发现含有许多生物碱,如抗疟生物碱奎中的奎宁以及其异构体奎尼丁等。

请添加图片描述

图 1:夹竹桃、马钱和茜草科中含有抗疟疾生物碱的实例

A:在夹竹桃科植物中发现的一种生物碱:Aspidocarpine。

B:在马钱子科植物中发现的一种生物碱:Strychnogucine。

C:在茜草科植物中发现的、现被广泛用于抗疟药物中的生物碱:Quinine(奎宁)。

数据集具体包括植物形态特征、生物化学特征、生长环境条件以及地理位置等信息,下图展现了这份数据集中二元特征之间(只有两种取值的特征,如有毒/无毒)的关系。

请添加图片描述

图 2:数据集中二元特征间的关系

X 轴:二元特征。
Y 轴:每个特征的平均值,其中每个特征代表了不同的植物属性,如是否有毒、是否被用作传统药物等。

如图所示,所有植物物种中有 10% 被用作传统药物,而有毒植物物种有 77% 被用作传统药物,研究人员将这种差异称为抽样偏差,并且提出抽样偏差是由民族植物法 (ethnobotanical approach) 造成的。

民族植物学是指通过寻找和研究当地居民用于治疗疾病的植物来寻找药用植物,但因为不同地区和不同文化之间存在差异, 就可能会出现某一种或几种具有抗疟性的植物频繁地在数据集里出现,而导致其他可能具有抗疟性的植物被忽略,这就是所谓的抽样偏差。

为了更好地训练模型,研究人员对抽样偏差进行了校正,**具体方式是对每个植物物种进行重新加权,即使用了反向概率加权 (Inverse Probability Weighting) ,**这样每个物种样本都能在模型训练中被平等对待,从而提高数据集的代表性和模型的性能。

实验成果展示

模型训练及验证

本次实验中,研究人员训练了基于支持向量 (SVC)、逻辑 回归 (Logit)、XGBoot (XGB) 以及贝叶斯神经网络 (BNN) 的 4 种机器学习模型,并将这些模型与 2 种民族植物学方法——寻找传统抗疟植物和寻找传统药用(不特定于疟疾)植物进行比较。

对于基于 Logit、SVC 和 XGB 的 3 个模型,**研究人员的训练方法是通过 GridSearchCV 算法对模型的超参数进行调整,并使用 F0.5 指标来评估模型性能。**其中,研究人员对基于 Logit、SVC 的两个模型调整了 正则化 参数 C 和 class_weight 参数;对基于 XGB 的模型,则调整了 max_depth 参数。

对于基于 BNN 的模型,研究人员使用了两层分别有 10 个和 5 个的神经网络以及 tahn 激活函数 (activation function),又通过 100,000 个马尔可夫链蒙特卡洛迭代 (Markov chain Monte Carlo iterations) 来训练模型。

在验证阶段,研究人员在两种情况(没有进行抽样偏差校正和进行抽样偏差校正)下采用 10 次迭代的 10 折分层交叉验证 (10 iterations of 10-fold stratified cross validation) 方法对模型性能进行评估。

实验结果

首先是没有进行抽样偏差校正情况下,研究人员对筛选植物源性抗疟化合物的实验结果如下:

请添加图片描述

图 3:没有进行偏差校正情况下机器学习模型与 2 种民族植物法对比

如图所示,总体来看,机器学习模型的平均得分比 2 种民族植物法都要高, 并且能从数据特征中预测抗疟活性 (BNN: 0.66,XGB: 0.66,Logit: 0.62,SVC:0.65,Ethno (M): 0.57,Ethno (G): 0.50)。

进行了偏差校正情况下,研究人员对筛选植物源性抗疟化合物的实验结果如下:

请添加图片描述
图 4:进行了偏差校正情况下机器学习模型与 2 种民族植物法对比

如图所示,虽然由于对训练和测试集增加了 权重 ,使得模型性能的方差较高,但机器学习模型表现仍然比民族植物学方法要好。 研究人员将传统植物选择法的准确率估计为 0.47,而机器模型的预测准确率则普遍高于这个数字 (BNN: 0.59,XGB: 0.63,Logit: 0.66,SVC: 0.67)。

不过,虽然此实验成果展示了机器学习模型可以相对准确地筛选出具有抗疟活性的植物,但研究人员称,该实验仍有需要改进的部分:

  • 增加训练数据: 目前训练数据集相对较小,需要增加更多的植物物种数据来进一步提高模型的性能。

  • 解决抽样偏差问题: 虽然本实验中已经试图解决抽样偏差问题,但仍需要发掘更多的偏差校正方法。

  • 优化特征选择:需要进行更多的植物特征选择和优化。

  • 进一步测试物种数量过少或样本分布不均衡的植物物种: 对于现有数据中代表性不足的物种,需要进行更多的测试,以获得更准确的结果。

英国皇家植物园:发现植物的力量

对于本项研究成果,英国皇家植物园院长表示:「我们的研究结果显示了植物在生产新药方面拥有巨大潜力。 据估计,目前已知的维管植物物种有 34,300 种,但很多并没有得到深入的科学研究。我们希望机器学习方法能够应用在这方面,以寻找新的药用化合物。 并且这些成果也凸显了保护生物多样性和可持续发展自然资源的重要性。」

闻名于世的英国皇家植物园 (Royal Botanic Gardens, Kew) 通常被简称为「邱园」(Kew Gardens) 。邱园是国际知名植物研究与教育机构,由英国政府环境食品和乡村事务部 (Department for Environment, Food and Rural Affairs, UK) 资助,它是一个非政府部门性质的公立团体。邱园的目标是:「保护生物多样性,研发基于自然的解决方案,来应对人类面临的全球性挑战。」

大约在几个月之前,有新闻报道致力于可持续发展的基金 Greensphere Capital 计划对邱园投资 1 亿英镑,该笔投资将用于可持续农业以及招聘新的研究人员来研究植物和真菌科学、栖息地保护、农业及林业等项目。

本文首发自 HyperAI 超神经微信公众平台~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/594737.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

路径规划算法:基于风驱动优化的路径规划算法- 附代码

路径规划算法:基于风驱动优化的路径规划算法- 附代码 文章目录 路径规划算法:基于风驱动优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用智能优化算法…

游戏场景的转换——状态模式

状态模式 游戏比较复杂时,通常会设计成多个场景。 切换场景的好处 1、重复使用场景 跳转切换场景的代码有两种一种是旧版的方法 Application.LoadLevel(“SampleScene”);另一种是新版的方法 SceneManager.LoadScene(“SampleScene”); 例子1:通过场景…

通过IEDA连接Linux上的MYSQL

一、打开idea新建项目 idea与数据库的连接是与项目强相关的 在项目A中配置的数据库连接a,那么只能在项目A中能看到和使用数据库连接a 二、配置新的数据库连接 1.点击界面左侧栏中的Database,唤出数据库连接界面 2. 新建数据库(mysql&#x…

Linux:apache配置与应用

Linux:apache配置与应用 一、虚拟 Web 主机1.1 虚拟Web主机1.2 httpd服务支持的虚拟主机类型 二、基于域名的虚拟主机2.1 为虚拟主机提供域名解析2.2 为虚拟主机准备网页文档2.3 添加虚拟主机配置2.4 设置访问控制2.5 加载独立的配置文件2.6 在客户机中访问虚拟 Web…

RabbitMQ消息属性详解

content-type属性 如同各种标准化的HTTP规范,content-type传输消息体的MIME类型。例如,如果你的应用程序正在发送JSON序列化的数据值,那么将content-type属性设置为application/json将允许尚待开发的消费者应用程序在收到消息时检查消息类型…

BiFormer实战:使用BiFormer实现图像分类任务(一)

文章目录 摘要安装包安装timm安装 grad-cam 数据增强Cutout和MixupEMA项目结构计算mean和std生成数据集 摘要 论文翻译:https://wanghao.blog.csdn.net/article/details/130186102 官方源码:https://github.com/rayleizhu/BiFormer BiFormer是今年提出…

java idea常用的快捷方式

文章目录 java idea常用的快捷方式快速复制选多行改变代码格式化 快速代码编辑psvmsout5.for java idea常用的快捷方式 快速复制 c t r l d \color{red}{ctrld} ctrld 选多行改变 A l t 鼠标 \color{red}{Alt鼠标} Alt鼠标 代码格式化 C t r l A l t l \color{red}{Ctrl…

Web的基本漏洞--代码执行漏洞

目录 一、代码执行漏洞的介绍 1.代码执行漏洞的原理 2.常用含有的代码执行漏洞的函数 3.代码执行漏洞的危害 4.代码执行漏洞的防范措施 一、代码执行漏洞的介绍 1.代码执行漏洞的原理 web应用程序是指程序员在代码中使用了一些执行函数例如php的eval,assert等…

全球冰川均衡调整(GIA)数据下载链接汇总

在处理GRACE数据时,由于GRACE监测的信号包含地表的质量迁移信号和固体地球物理信号,因此研究地表的质量迁移时需要扣除固体地球的信号,目前最主要的时冰川均衡调整(冰后回弹)的信号。具体的关于冰川均衡调整的信息可参…

Unity——在C#中调用C++动态链接库(DLL)

一、创建C动态链接库(DLL) 1、新建C空项目 打开VS,新建一个C空项目,自命名项目名称与位置。 2、配置项目属性为动态链接库 右键项目,点击属性,打开项目属性页,将常规中的配置类型改为动态库&…

无需租云服务器,Linux本地搭建web服务,并内网穿透发布公网访问(1)

文章目录 前言1. 本地搭建web站点2. 测试局域网访问3. 公开本地web网站3.1 安装cpolar内网穿透3.2 创建http隧道,指向本地80端口3.3 配置后台服务 4. 配置固定二级子域名5. 测试使用固定二级子域名访问本地web站点 转载自cpolar文章:Linux CentOS本地搭建…

HTB soccer

title: HTB_soccer description: HTB靶机 难度:easy date: 2023-05-31 categories: [渗透,靶机] HTB soccer 信息收集 ┌──(kali㉿kali)-[~] └─$ sudo nmap --min-rate 10000 -p- 10.10.11.194 [sudo] kali 的密码: Starting Nmap 7.93 ( https:/…

路径规划算法:基于水循环优化的路径规划算法- 附代码

路径规划算法:基于水循环优化的路径规划算法- 附代码 文章目录 路径规划算法:基于水循环优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用智能优化算法…

【数据分享】1929-2022年全球站点的逐年最高气温(Shp\Excel\12000个站点)

气象数据是在各项研究中都经常使用的数据,气象指标包括气温、风速、降水、湿度等指标,其中又以气温指标最为常用!说到气温数据,最详细的气温数据是具体到气象监测站点的气温数据! 之前我们分享过1929-2022年全球气象站…

工业智能终端配合MES系统真的可以提高生产效率吗?

工业智能终端可以实现数据分析和预测,通过对生产数据的分析和预测,可以更好地把握生产趋势和变化,及时调整生产计划和资源配置,提高生产效率和降低成本。 工业显示交互终端:解决MES系统软硬结合的难题,集显…

交叉编译成LoongArch(Makefile,CMake,AutoTool,Qt等方式)

在嵌入板卡中由于资源有限常常使用像busybox这样的轻量文件系统。由于这类轻量文件系统没有编译系统在里面,所以如果需要软件在板卡上运行,那么交叉编译是必不可少的。 如果对交叉编译(cross compile)这个概念不太清楚的话,可以参考以下的一…

加盐算法:手撕+Spring Security、提高密码安全性的必杀技

目录 一、概念和理解 (一)MD5加密 (二)加密解密过程 (三)加盐 1.什么是盐值? 2.如何加盐? 二、手写加盐算法 (一)密码工具类 (二)项目改动 注册 …

Spring Boot如何实现自定义Spring Boot启动器

Spring Boot如何实现自定义Spring Boot启动器 在Spring Boot中,启动器(Starter)是一组依赖项的集合,它们一起提供了某个特定的功能。使用Spring Boot启动器可以让我们更加方便地集成第三方库和框架,并且可以避免版本冲…

2023年京东618预售数据重磅出炉!(大家电篇:预售额550亿)

2023年5月23日至5月31日,京东618预售期正式落幕。今年的预售,不少行业及品牌首战告捷,拿下了不错的成绩。 数据统计时间:5月23日至5月30日 平台:京东 今晚,鲸参谋率先来盘点一下大家电行业在23日至30日预售…

知名大厂的UI组件库有哪些?

以下是 5 款优秀的 UI 设计组件库的推荐,这些组件库都可以免费获取,帮助你解答疑惑,提供设计参考,并提高工作效率 1、MUI(Material-UI) 包含 60 类别的 UI 设计组件,可在即时设计资源广场一…