AI4S Cup学习赛-中枢神经系统药物研发:药物筛选与优化

news2024/11/28 16:36:42

赛题介绍

链接:Bohrium 案例广场 (dp.tech)

中枢神经系统类疾病长期以来存在着重要的临床未满足需求。据统计,在当前人口老龄化趋势下,阿兹海默(AD)、帕金森病(PD)等神经退行性疾病和脑癌、中风等疾病的治疗费用将达到数万亿美元,由此产生巨额的医疗保健支出。因此,获得高质量、有效的中枢神经系统药物在当前被普遍视为具有重要的科学和商业价值。

随着AI for science的兴起,AI可以在大规模化合物库中筛选具有潜在治疗作用的药物,基于计算机模拟的方法预测药物的药理活性、毒性和药代动力学特性。通过这种方式,AI可以筛选出最有前景的药物候选者,并优化其化学结构,以提高安全性和有效性。

本次学习赛将提供一批分子信息数据,选手需要以AI方法对分子是否可作为CNS(Central Nervous System)药物进行检测,实现AI助力下的CNS药物筛选和研发工作。

原理简介

中枢神经系统(CNS)包括大脑和脊髓,负责处理和调控身体的各种功能。非中枢神经系统(non-CNS)则包括神经元以外的组织,如内分泌系统和免疫系统等。

由于血脑屏障及其上各类转运体的存在,中枢神经系统用药通常需要满足一些特定的特征。药物化学家会根据特定的指标来判断一个药物是否具有成为中枢神经系统药物的潜力,如分子量和拓扑极性表面积(TPSA)不能过大,N原子和极性H原子数量不能过多,溶剂可及表面需在特定范围内等。这些特征为药物发现和优化阶段中判断分子作为CNS药物的潜力提供了启示。

SMILES 分子表达式中包含了丰富的信息。我们可以利用 SMILES 表达式构建 CNS 药物预测的机器学习模型,并可帮助研究人员深入理解中枢神经系统(CNS)药物和非中枢神经系统(non-CNS)口服药物在众多理化性质方面的差异。这将有助于加速 CNS 药物的筛选和研发过程。

赛题教程

请点击下方链接进入本次学习赛的课程主页,本赛题的一系列教程学习资料会陆续上传,请大家关注。

教程链接:https://nb.bohrium.dp.tech/courses/detail/2718054507

赛题理解及科学知识补充

背景知识

研发一款成功上市的药物需要大约10年的时间,花费10亿美金,平均研发25款药物只有1款能成功提交到药监局,所以迫切希望AI能辅助药物的设计

靶点:导致疾病发生的问题的根源,通常是生物体内某些蛋白质出现了功能的失活或失调

人们通过设计药物去有效的调节这些靶点的生物功能

对于AD阿茨海默这类疾病,大部分靶点分布在脑部、脊椎等中枢神经系统

吸收、分布、代谢、排泄、毒性

本次赛题研究的血脑屏障BBB对应着distribution,也就是药物能否顺利的送入中枢神经系统,这是药物能否成为CNS药物的关键

QSAR

QSAR模型的建立需要分子的结构和分子的某些性质,并没有加入任何和这个靶点相互作用的信息

分子结构的表示

pass

baseline

# 需要挂载 bohr CNS 数据集
DIR_PATH = '/bohr/ai4scup-cns-5zkz/v3/'
!pip install lightgbm numpy pandas rdkit scikit-learn

import lightgbm as lgb
import numpy as np
import pandas as pd

from rdkit import Chem  # 导入RDKit中的Chem模块,用于分子对象转换
from rdkit.Chem.rdMolDescriptors import GetMorganFingerprintAsBitVect  # 从RDKit中导入GetMorganFingerprintAsBitVect函数,用于生成分子指纹(位向量转换)

from sklearn.model_selection import train_test_split  # 从scikit-learn中导入train_test_split函数,用于拆分数据集
from sklearn.metrics import fbeta_score  # 从scikit-learn中导入fbeta_score函数,用于 F2 Score 计算

raw_data = pd.read_csv(f"{DIR_PATH}/mol_train.csv")
test_data = pd.read_csv(f"{DIR_PATH}/mol_test.csv")

# 拆分训练数据为训练集与验证集,验证集占比 20%,设定固定随机种子
train_data, valid_data = train_test_split(
    raw_data, test_size=0.2, random_state=hash("Datawhale") % 2023
)

def smile2fingerprint(smile: str):
    """将 SMILE 分子式表示为指纹数据

    参数:
        smile (string): SMILE 分子式

    返回:
        fp (Explict BitVect): 分子式的 Morgan 指纹位向量
    """
    molecular = Chem.MolFromSmiles(smile)  # 将字符串转换为分子式对象
    finger_print = GetMorganFingerprintAsBitVect(molecular, 5, nBits=1024)  # 获得分子式的 Morgan 指纹位向量
    return finger_print

# 批量将位向量转换为特征矩阵,形状为 (n, 1024),n 代表数据个数,1024 在位向量转换时指定
train_X = np.array([smile2fingerprint(smile) for smile in train_data["SMILES"]])
valid_X = np.array([smile2fingerprint(smile) for smile in valid_data["SMILES"]])
test_X = np.array([smile2fingerprint(smile) for smile in test_data["SMILES"]])

# 将数据特征矩阵转换为 LightGBM 指定格式,(特征向量,对应标签)
lgb_train = lgb.Dataset(train_X, label=train_data["TARGET"])
lgb_valid = lgb.Dataset(valid_X, label=valid_data["TARGET"])

# 设定 LightGBM 训练参,查阅参数意义:https://lightgbm.readthedocs.io/en/latest/Parameters.html
lgb_params = {
    "objective": "binary",  # 指定任务类别为二分类
    "seed": hash("Datawhale") % 2023,  # 设定随机种子
    "verbose": -1,  # 禁用输出(可选)
}

# 训练模型,参数依次为:导入模型设定参数、导入训练集、设定模型迭代次数(100)、导入验证集
model = lgb.train(lgb_params, lgb_train, num_boost_round=100, valid_sets=lgb_valid)

threshold = 0.5 # 模型输出的是类别概率,设定概率的判断阙值

# 用验证集进行模型预测(选择训练中最好的一次)
valid_pred = model.predict(valid_X, num_iteration=model.best_iteration)
# 生成预测标签结果,如果概率大于阈值则为 1,否则为 0
valid_result = [1 if x > threshold else 0 for x in valid_pred]
# 计算验证集 F2 Score 分数
valid_score = fbeta_score(valid_data["TARGET"], valid_result, beta=2)
print(f"Valid Score: {valid_score}")

# 预测测试集数据并获得预测结果
pred = model.predict(test_X, num_iteration=model.best_iteration)
result = [1 if x > threshold else 0 for x in pred]

submission = pd.DataFrame()
submission["SMILES"] = test_data["SMILES"]
submission["TARGET"] = result
submission.to_csv("./submission.csv", index=False)

把finger_print = GetMorganFingerprintAsBitVect(molecular, 5, nBits=1024)中的5改成2,上了一点点分

特征工程与可视化

pass

Uni-Mol及进阶版Baseline

pass

图神经网络

pass

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1256767.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ATK-ESP8266 WIFI模块串口通信通用实现方案

ATK-ESP8266 WIFI模块是一种常用的无线模块,它可以通过串口与外部设备进行通信,实现数据的收发和控制。本文将介绍一种通用的实现方案,帮助您在项目中使用ATK-ESP8266 WIFI模块进行串口通信。 【方案概述】 这个通用实现方案涵盖了ATK-ESP82…

探索 Rollup:简化你的前端构建流程

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

SCI一区级 | Matlab实现GWO-CNN-LSTM-selfAttention多变量多步时间序列预测

SCI一区级 | Matlab实现GWO-CNN-LSTM-selfAttention多变量多步时间序列预测 目录 SCI一区级 | Matlab实现GWO-CNN-LSTM-selfAttention多变量多步时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现GWO-CNN-LSTM-selfAttention灰狼算法优化卷积长短…

Java8实战-总结49

Java8实战-总结49 CompletableFuture:组合式异步编程对多个异步任务进行流水线操作构造同步和异步操作将两个 CompletableFuture 对象整合起来,无论它们是否存在依赖 CompletableFuture:组合式异步编程 对多个异步任务进行流水线操作 构造同…

jdk17安装全方位手把手安装教程 / 已有jdk8了,安装JDK17后如何配置环境变量 / 多个不同版本的JDK,如何配置环境变量?

🧸欢迎来到dream_ready的博客,📜相信您对博主首页也很感兴趣o (ˉ▽ˉ;) 学生邮箱白嫖/免费安装JetBrains全家桶(IDEA/pycharm等) —— 保姆级教程 目录 1、下载jdk17 2、安装jdk17 3、配置环境变量 -> 电脑无其他jdk 4、…

Windows安装Python环境(V3.6)

文章目录 一:进入网址:https://www.python.org/downloads/ 二:执行安装包 默认C盘,选择自定义安装目录 记得勾选add python path 下面文件夹最好不要有 . 等特殊符号 可以创建 python36 如果安装失败Option可以选默认的&#x…

IDEA DeBug

文章目录 01_Debug简介和意义02_IDEA中的Debug步骤03_跳转到当前代码执行的行04_步过调试的使用05_步入调试的使用06_强制步入调试的使用07_步出调试的使用08_回退断点调试的使用09_运行到光标处10_计算表达式11_条件断点12_多线程调试 01_Debug简介和意义 什么是程序DeBug&am…

PCIE链路训练-状态机描述4

Recovery Recovery.RcvrLock (1)如果link是在8.0GT/s或以上的速率工作,那么rx只会认为当前lane获得Block alignment之后收到的TS0,TS1,TS2是有效的。如果进入当前状态是从L1或recovery.speed或L0s,获取Blo…

STK Components 二次开发-地面站传感器

上一篇我们说了创建地面站,那么这次我们在地面站添加一些特效。 1. 创建地面站 var locationPoint1 new PointCartographic(m_earth, new Cartographic(Trig.DegreesToRadians(117.17066), Trig.DegreesToRadians(31.84056), 240.359)); m_facility new Platfor…

大型网站系统架构演化(Web)

大型网站系统架构演化 大型网站系统架构演化需要关注的维度涉及的技术演进过程单体架构垂直架构使用缓存改善网站性能缓存与数据库的数据一致性问题缓存技术对比Redis分布式存储方案Redis集群切片的常见方式Redis数据类型Redis 淘汰算法 大型网站系统架构演化 需要关注的维度 …

【虚拟机Ubuntu 18.04配置网络】

虚拟机Ubuntu 18.04配置网络 1.配置网络连接方式,查看自己网关 2.修改主机名 3.修改系统配置1.配置网络连接方式,查看自己网关 选择虚拟机镜像设置网络连接模式,可以选择桥接或者NAT连接(我这里选择是NAT连接) 确定自己网关,可以在虚拟机 -》 编辑 -》虚拟网络编…

Android 10.0 mtp模式下连接pc后显示的文件夹禁止删除copy重命名功能实现

1.前言 在10.0的系统开发中,usb连接pc端的时候有好几种模式,在做otg连接pc端的时候,改成mtp模式的时候,在pc端可以看到产品设备 的显示的文件夹的内容,对于产品设备里面的文件在pc端禁止做删除重命名拷贝等操作功能的实现 2.mtp模式下连接pc后显示的文件夹禁止删除copy重命…

微信小程序开发学习——小程序基本架构

1.创建一个包含:首页、咨询、关于我们 3个标签的小程序,每个标签都有对应的页面、图标和标签文字。 知识点:app.json文件对小程序进行全局配置,同名.json文件对本窗口进行配置 app.json属性: pages用于指定小程序由哪…

sql语句在字段中使用select

有两个表如下;产品表,产品评论表; 查询全部产品信息和每种产品的评论数量; 这也是子查询的一种; select * from product1; select * from comment; SELECT product1.*,(select count(id) from comment where product1…

docker打包前端镜像

文章目录 一、构建镜像二、查看本地镜像三、启动容器四、查看启动的容器五、保存镜像六、读取镜像七、创建镜像八、最后 docker官网 一、构建镜像 -t是给镜像命名,.(点)是基于当前目录的Dockerfile来构建镜像 docker build -t image_web .二、查看本地镜像 docke…

nodejs微信小程序+python+PHP-婚纱摄影预约系统的设计与实现-安卓-计算机毕业设计

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:…

Ubuntu:安装VSCode

参考博客Ubuntu下安装VSCODE_ubuntu安装vscode-CSDN博客中的第二种方式【安装包方式安装】,即可,安装非常easy~~~ 安装包方式安装: 1. 从VSCode官网下载最新版的deb安装包: https://code.visualstudio.com/Download,…

手把手教会你--github的学习--持续更新

有什么问题,请尽情问博主,QQ群796141573 前言1.1 使用过程(1) 进入某个项目(2) 点击某个文件(3) 在源码区域下面(4) 源码区的头顶上 1.2 作者的其他项目1.3 搜索1.4 复制别人的代码(即项目)到自己的空间内1.5 上传自己的Bugs(bushi1.6 在线修改文件1.7 评…

JVM——垃圾回收算法(垃圾回收算法评价标准,四种垃圾回收算法)

目录 1.垃圾回收算法发展简介2.垃圾回收算法的评价标准1.吞吐量2.最大暂停时间3.堆使用效率 3.垃圾回收算法01-标记清除算法垃圾回收算法-标记清除算法的优缺点 4.垃圾回收算法02-复制算法垃圾回收算法-复制算法的优缺点 5.垃圾回收算法03-标记整理算法标记整理算法的优缺点 6.…

利用STM32和MFRC522 IC实现智能卡的读取和数据存储

利用STM32微控制器和MFRC522 RFID读写器芯片,可以实现智能卡的读取和数据存储功能。智能卡是一种集成了RFID技术和存储芯片的卡片,它可以用于身份验证、门禁控制、支付系统等应用场景。下面将介绍如何使用STM32和MFRC522芯片进行智能卡的读取和数据存储&…