分子AI预测赛Task2笔记

news2025/1/4 19:51:48

下面所述比较官方的内容都来自官方文档

‍‌⁠‌‍​​​‌​​⁠​​​​​​​​‍‬​​‍⁠‍‍​​‬​‌​​​‌‍‬​​​​​​‍‌Task2:赛题深入解析 - 飞书云文档 (feishu.cn)

赛题背景

  • 强调了人工智能在科研领域,特别是在化学和药物研发中的重要性。

  • 指出了PROTACs技术在靶向降解目标蛋白质方面的潜力。

赛题任务

  • 要求选手使用提供的demo数据集,这个数据集包含了多个与PROTACs降解能力相关的字段。

  • 允许选手通过数据增强或自行搜集数据来扩充数据集,并自行划分数据集用于训练和验证模型。

赛题提供的数据比较有限,仅有几百条,如果能搜索出合适的数据扩充数据集将会是很大的提升,当然数据的搜索也是非常困难的。

数据字段理解

赛题介绍部分并没有给出关于数据字段的具体介绍,所以这里对每个数据字段进行解释:

  • 数据集包含了多个字段,uuid(唯一标识符)、Label(降解能力的标签,0表示降解能力较差,1表示降解能力好)UniprotTargetE3 ligasePDB等,这些都是与PROTACs分子相关的信息。

  • 还包括了降解能力相关的数值指标,如DC50(半数降解浓度)、Dmax(最大降解效率)、IC50(半抑制浓度)、EC50(半有效浓度)等。

  • 还包括了与分子物理化学性质相关的字段,如Molecular Weight(分子量)、Exact Mass(精确质量)、XLogP3(预测的脂水分配系数)等。

具体说明如下:

  • UUID: 一个唯一的标识符,用于识别数据记录。

  • Label: 可能指的是化合物或数据集的标签或名称。

  • Uniprot: 一个蛋白质数据库,提供关于蛋白质序列、结构和功能的信息。

  • Target: 目标蛋白,即PROTACs设计来降解的特定蛋白质。

  • E3 ligase: E3连接酶,一种在泛素化过程中扮演角色的酶,帮助标记蛋白质以供降解。

  • PDB: 蛋白质数据银行,一个包含蛋白质和核酸结构的数据库。

  • Name: 化合物的名称。

  • Smiles: 一种表示分子结构的字符串格式。

  • DC50 (nM): 半最大降解浓度,即达到最大降解效果一半时的化合物浓度。

  • Dmax (%): 最大降解效率,表示化合物能实现的最大降解效果的百分比。

  • Assay: 实验方法,这里可能指的是用于测定DC50、Dmax等的实验。

  • Percent degradation: 分子降解的百分比。

  • IC50 (nM, Protac to Target): 半最大抑制浓度,针对PROTACs与其目标蛋白的复合物。

  • EC50 (nM, Protac to Target): 半最大有效浓度,即达到一半最大生物效应的浓度。

  • Kd (nM, Protac to Target): 解离常数,表示PROTACs与其目标蛋白复合物的结合强度。

  • Ki (nM, Protac to Target): 抑制常数,用于描述抑制剂与酶的结合强度。

  • delta G, delta H, -T*delta S: 分别表示结合反应的吉布斯自由能变化、焓变和熵变,这些热力学参数用于描述分子间相互作用的能量状态。

  • kon, koff: 分别表示分子结合和解离的速率常数。

  • t1/2 (s, Protac to Target): 半衰期,即分子浓度减少到初始浓度一半所需的时间。

  • Assay (Protac to Target, kon/koff/t1/2): 可能是指测定结合和解离速率常数以及半衰期的实验方法。

接下来的部分讨论了与E3连接酶的相互作用,以及形成的三元复合物(目标蛋白、PROTACs、E3连接酶)的类似参数。

  • IC50, EC50, Kd, Ki: 与三元复合物相关的参数,与前面提到的类似,但这里特指三元复合物。

  • delta G, delta H, -T*delta S: 描述三元复合物的热力学参数。

  • kon, koff, t1/2: 描述三元复合物的动力学参数。

最后,描述了与细胞活性相关的参数,包括:

  • IC50, EC50, GI50, ED50, GR50: 这些参数描述了化合物在细胞水平上的活性,如半最大抑制浓度、半最大效应浓度等。

  • PAMPA Papp: 一种评估药物分子在仿生膜上的通透性的方法。

  • Caco-2 A2B/B2A Papp: 使用Caco-2细胞系评估药物分子的肠道吸收能力。

  • Article DOI: 文章的数字对象标识符,用于唯一标识科学文献。

  • Molecular Weight, Exact Mass: 分子量和精确质量。

  • XLogP3: 预测的辛醇/水分配系数,用于预测脂溶性。

  • Heavy Atom Count, Ring Count: 重原子数和环的数量。

  • Hydrogen Bond Acceptor/Donor Count: 氢键受体/供体计数。

  • Rotatable Bond Count: 可旋转键的数量。

  • Topological Polar Surface Area: 拓扑极性表面积。

  • Molecular Formula, InChI, InChI Key: 分子式、国际化学标识符及其密钥。

其中将对Smiles、Assay (DC50/Dmax)、Assay (Protac to Target, IC50)、Assay (Cellular activities, IC5、Article DOI、InChI展开介绍。

Smiles结构如下:

NC1=NC=NC2=C1C(C1=CC=C(OC3=CC=CC=C3)C=C1)=NN2[C@@H]1CCCN(C(=O)C2=CN(CCOCCOCCOCCCC3=CC=CC4=C3CN(C3CCC(=O)NC3=O)C4=O)N=N2)C1

Smiles是一种用于描述化学结构的文本字符串,它能够被用于输入化学信息学软件。

这个特定的Smiles字符串代表了一个含有多个环和官能团的有机分子。下面是这个分子结构的一些特征:

  • NC1=NC=NC2:表示一个含氮的六元环结构,可能是一个吡啶环。

  • C1C(C1=CC=C(OC3=CC=CC=C3)C=C1):表示一个苯环(OC3=CC=CC=C3),该苯环通过一个碳原子连接到另一个苯环。

  • =NN2:表示一个氮氮双键。

  • [C@@H]1CCCN:表示一个手性中心,碳原子1连接到一个氮原子,并且有一个手性标记@@H

  • (C(=O)C2=CN(CCOCCOCCOCCCC3=CC=CC4=C3CN(C3CCC(=O)NC3=O)C4=O)N=N2):这是一个复杂的部分,包含一个羰基(C(=O)),一个烯醇胺结构,以及多个碳链和连接的氮原子。

这个Smiles字符串代表的分子可能是一种生物活性分子,例如一种药物或生物分子。由于其复杂性,通常需要专业的化学信息学软件来解析和可视化这种结构。

Assay (DC50/Dmax)结构如下:

'Degradation of IRAK4 in HEK293T cells after 24 h treatment' 'Degradation of HDAC3 in MDA-MB-468 cells after 14 h treatment'

在生物测定和药物发现领域,"Degradation of IRAK4 in HEK293T cells after 24 h treatment" 和 "Degradation of HDAC3 in MDA-MB-468 cells after 14 h treatment" 描述了两种不同的实验情境。下面是对这些信息的解释:

  1. Degradation of IRAK4 in HEK293T cells after 24 h treatment:

    1. 这指的是在实验中,IRAK4(白细胞介素-1受体相关激酶4)在HEK293T细胞系中的降解情况。HEK293T是一种常用的人类胚胎肾细胞系,经常用于分子生物学和细胞生物学实验。

    2. "24 h treatment" 表示这些细胞在实验中被处理(可能是某种药物或化合物)持续了24小时。

  2. Degradation of HDAC3 in MDA-MB-468 cells after 14 h treatment:

    1. 这描述了HDAC3(组蛋白去乙酰化酶3)在MDA-MB-468细胞系中的降解情况。MDA-MB-468是一种人类乳腺癌细胞系。

    2. "14 h treatment" 表示这些细胞在实验中被处理持续了14小时。

  3. Assay (DC50/Dmax):

    1. 这可能指的是一种实验测定方法,用于评估化合物对蛋白质降解的影响。

    2. "DC50" 可能是指半最大降解浓度(Degradation Concentration 50),即导致蛋白质降解达到最大值一半的化合物浓度。

    3. "Dmax" 可能是指在实验条件下可观察到的最大降解效果。

    4. "Assay (DC50/Dmax)" 可能是一个比率或关系,用来量化化合物诱导的蛋白质降解效率。

在药物筛选和细胞生物学实验中,这类信息对于评估化合物的潜在药效和毒性至关重要。通过测量特定蛋白质的降解情况,研究人员可以了解化合物对细胞功能的影响,并进一步研究其作用机制。

InChI结构如下:

InChI=1S/C47H61N7O6S/c1-7-26-49-53-44(58)36-20-16-33(17-21-36)34-22-24-37(25-23-34)51-40(56)12-10-8-9-11-13-41(57)52-43(47(4,5)6)46(60)54-28-38(55)27-39(54)45(59)50-30(2)32-14-18-35(19-15-32)42-31(3)48-29-61-42/h14-25,29-30,38-39,43,49,55H,7-13,26-28H2,1-6H3,(H,50,59)(H,51,56)(H,52,57)(H,53,58)/t30-,38+,39-,43+/m0/s1

InChI(国际化学标识符)是一种用于唯一标识化学化合物的标准化字符串。它由一系列部分组成,提供了关于分子结构的详细信息。下面是对提供的InChI字符串的详细解释:

  1. 开头标识

    1. InChI=1S/ 开头的 1S 表示这是一个标准InChI字符串。

  2. 分子式

    1. C47H61N7O6S 表示该化合物的分子式,包含47个碳原子(C)、61个氢原子(H)、7个氮原子(N)、6个氧原子(O)和1个硫原子(S)。

  3. 连接表

    1. /c1-7-26-49-53-44(58)36-20-16-33(17-21-36)34-22-24-37(25-23-34)51-40(56)12-10-8-9-11-13-41(57)52-43(47(4,5)6)46(60)54-28-38(55)27-39(54)45(59)50-30(2)32-14-18-35(19-15-32)42-31(3)48-29-61-42/ 这部分是连接表,描述了原子在分子中的连接顺序和方式。

  4. 氢原子计数

    1. h14-25,29-30,38-39,43,49,55H 表示在这些碳原子上附加的氢原子数量。

  5. 多可旋转键计数

    1. 7-13,26-28H2 表示在这些碳原子之间有两个氢原子,可能形成可旋转键。

  6. 立体化学信息

    1. (H,50,59)(H,51,56)(H,52,57)(H,53,58) 表示分子中存在多个手性中心,每个手性中心由一对氢原子标记。

  7. 同分异构体信息

    1. /t30-,38+,39-,43+ 表示分子中某些碳原子的立体化学构型,如 30- 表示一个向下的楔形表示的碳原子,38+ 表示一个向上的楔形表示的碳原子。

  8. 混合物或互变异构体信息

    1. /m0 表示这是一个单一的化合物,没有互变异构体。

  9. 电荷和自旋多重度信息

    1. /s1 表示分子的电荷和自旋多重度信息,这里 s1 表示单线态。

  10. 结束标识

    1. InChI字符串以 / 结尾。

InChI提供了一种非常详细的化学结构表示方法,使得不同的化学信息学软件能够准确无歧义地解析和理解分子结构。通过InChI,研究人员可以确保在不同的数据库和软件平台之间准确交换化学结构信息。

预测目标

  • 选手需要预测PROTACs的降解能力,具体来说,就是预测Label字段的值。

  • 根据DC50Dmax的值来判断降解能力的好坏:如果DC50大于100nM且Dmax小于80%,则Label为0;如果DC50小于等于100nM或Dmax大于等于80%,则Label为1。

参考资料

  1. 药物化学与PROTACs相关文献

    1. "Targeted Protein Degradation by Small Molecules" (综述PROTACs的原理和应用)

    2. "The Role of E3 Ligases in Targeted Protein Degradation" (关于E3连接酶在蛋白质降解中的作用)

  2. 生物信息学与化学信息学资源

    1. RDKit官方文档:一个开源化学信息学软件库,用于处理化学分子和相关数据。http://rdkit.chenzhaoqiang.com/index.html

    2. Biopython官方文档:用于生物计算的Python库。https://biopython-cn.readthedocs.io/zh-cn/latest/

其中RDKit库可以帮助处理SMILES字符串,如下代码可以将SMILES转换为分子对象,然后进行分子结构绘制

from rdkit import Chem  # 导入Chem模块,它包含了处理分子表示的功能。
from rdkit.Chem import AllChem, Draw # 从Chem模块中导入AllChem和Draw子模块。AllChem提供了额外的化学功能,如2D和3D坐标生成、分子性质计算等。Draw模块则用于绘制分子结构图。

# SMILES字符串
smiles = "NC1=NC=NC2=C1C(C1=CC=C(OC3=CC=CC=C3)C=C1)=NN2[C@@H]1CCCN(C(=O)C2=CN(CCOCCOCCOCCCC3=CC=CC4=C3CN(C3CCC(=O)NC3=O)C4=O)N=N2)C1" # SMILES(Simplified Molecular Input Line Entry System)是一种用于描述化学物质结构的简化线性文本表示法。

# 3 将SMILES转换为分子对象
mol = Chem.MolFromSmiles(smiles) # 将SMILES字符串转换成RDKit中的Mol对象,这是RDKit中表示分子的核心数据结构。
# 4检查分子是否有效
if mol is None: 
    print("The SMILES string is invalid.")# 如果转换失败,mol将会是None。这种情况下,代码会打印出"The SMILES string is invalid."(SMILES字符串无效)
else:
    print("The molecule was parsed successfully.") #如果转换成功,代码将打印出"The molecule was parsed successfully."(分子已成功解析)。

    # 绘制分子结构
    molDrawer = Draw.MolToMPL(mol) # 使用Draw模块中的MolToMPL函数来将分子对象转换为matplotlib图形对象。
    molDrawer.show() # 显示生成的分子结构图。

 

个人感悟 

  • 上面内容从头看到尾,字都认识,但是由于术语太专业,合起来就看不懂了
  • 大致了解了所有子段的意思,明白了上次的运行结果文件里的字段label里面的0和1的意思
  • 应该是基于其他字段的信息构建模型,从而预测PROTACs的降解目标蛋白质方面的潜力
  • 感觉还是需要化学生物学方面的知识

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1887247.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法训练营day24--93.复原IP地址 +78.子集 +90.子集II

一、93.复原IP地址 题目链接:https://leetcode.cn/problems/restore-ip-addresses/ 文章讲解:https://programmercarl.com/0093.%E5%A4%8D%E5%8E%9FIP%E5%9C%B0%E5%9D%80.html 视频讲解:https://www.bilibili.com/video/BV1fA4y1o715 1.1 初…

高温下的稳定选择 —— PP消解管,耐化学更耐用

PP消解管,即聚丙烯材质的消解管,是一种常用于化学分析中的实验室设备,主要用于样品的消解处理。以下是PP消解管的一些主要特性和应用: 主要特性: 1. 耐化学腐蚀:PP材料对多数酸、碱和有机溶剂具有良好的耐…

Keil5 ST-LINK setting闪退问题解决

1. 官网下载新版驱动文件 MDK uVision crashes when using ST-Link debugger 2. 解压替换 STLinkUSBDriver6.1.2.0Signed 我的库文件目录: D:\Tool\Keil5\ARM\STLink

Vue3快速上手--3小时掌握

1. Vue3简介 2020年9月18日,Vue.js发布版3.0版本,代号:One Piece(n经历了:4800次提交、40个RFC、600次PR、300贡献者官方发版地址:Release v3.0.0 One Piece vuejs/core截止2023年10月,最新的…

数组-长度最小的子数组

M长度最小的子数组(leetcode209) /*** param {number} target* param {number[]} nums* return {number}*/ var minSubArrayLen function(target, nums) {const n nums.length;let ans n 1;let sum 0; // 子数组元素和let left 0; // 子数组…

燃料电池混合电源的能量管理系统

这个例子显示了燃料电池混合电源的能量管理系统。 这个例子展示了燃料电池混合电源的能量管理系统。 电路描述 本文给出了基于燃料电池的多电动飞机应急动力系统的仿真模型。随着MEA中起落架和飞控系统的电气化程度的提高,常规应急电源系统(冲压式空气涡轮或空气驱…

友好前端vue脚手架

企业级后台集成方案vue-element-admin-CSDN博客在哔站学习,老师说可以有直接的脚手架(vue-element-admin)立马去搜索,找到了这博主这篇文章 介绍 | vue-element-admin​​​​​​ 官方默认英文版: git clone https:/…

试用笔记之-Delphi xe 微信/支付宝支付源代码

首先delphi xe 微信/支付宝支付源代码下载: http://www.htsoft.com.cn/download/DelphiXEWeiXin_ZhiFuBao_ZhiFu.rar 解压后可以看到源代码 直接执行可执行文件:

消防认证-防火卷帘

一、消防认证 消防认证是指消防产品符合国家相关技术要求和标准,且通过了国家认证认可监督管理委员会审批,获得消防认证资质的认证机构颁发的证书,消防产品具有完好的防火功能,是住房和城乡建设领域验收的重要指标。 二、认证依据…

墨烯的C语言技术栈-C语言基础-003

三.数据类型 1.char // 字符数据型 2.short // 短整型 3.int // 整型 4.long // 长整型 5.long long // 更长的整型 6.float // 单精度浮点数 7.double // 双精度浮点数 为什么写代码? 为了解决生活中的问题 购物,点餐,看电影 为什么有这么多类型呢? 因为说的话都是字符型…

【详解】RV1106使用RKMPI+Yolov5部署检测

系列文章目录 第一篇:【详解】RV1106移植opencv-mobile库 文章目录 系列文章目录[TOC](文章目录) 前言一、烧入镜像二、项目工程1.获取源码编译2.移植项目文件 前言 记录使用RKMPI和Yolov5实现目标检测的demo。官方的资料比较详细:https://wiki.luckfo…

Android HWASAN使用与实现原理

一、背景 为了提前检测出Android User Sapce的app或native进程的内存错误问题,帮助研发定位与分析这些问题,基于Android 14版本上对HWASAN做了调研分析。 二、ASAN介绍 HWASAN是在ASAN的基础上做了拓展,因此在介绍HWASAN之前先了解下ASAN.…

C#的五大设计原则-solid原则

什么是C#的五大设计原则,我们用人话来解释一下,希望小伙伴们能学会: 好的,让我们以一种幽默的方式来解释C#的五大设计原则(SOLID): 单一职责原则(Single Responsibility Principle…

更好的方法_交叉观察器API

交叉观察器(Intersection Observer)API 是一个强大的工具,可以用来检测元素是否进入视口或从视口移出。我们可以利用这个 API 来实现粘贴式导航(也称为粘性导航),即在用户滚动页面时,导航栏会在…

简单分享 for循环,从基础到高级

1. 基础篇:Hello, For Loop! 想象一下,你想给班上的每位同学发送“Hello!”,怎么办?那就是for循环啦, eg:首先有个名字的列表,for循环取出,分别打印 names ["Alice", …

从零开始实现大语言模型(一):概述

1. 前言 大家好,我是何睿智。我现在在做大语言模型相关工作,我用业余时间写一个专栏,给大家讲讲如何从零开始实现大语言模型。 从零开始实现大语言模型是了解其原理及领域大语言模型实现路径的最好方法,没有之一。已有研究证明&…

服务器BMC基础知识总结

前言 因为对硬件方面不太理解,所以打算先从服务器开始学习,也想和大家一起分享一下,有什么不对的地方可以纠正一下哦!谢谢啦!互相学习共同成长~ 1.BMC是什么? 官方解释:BMC全名Baseboard Mana…

java面试课程-SpringIOC部分源码解析

1.SpringIOC的refresh源码解析 核心: 核心使用的是: 需要完成配置类的解析,各种BeanFactoryProcessor的注册。还有写国际化配置的初始化。Web容器的内部构造。 上面几个方法是refresh方法的内容。注意可以与applicationContext里的内容一起…

【Linux从入门到放弃】探究进程如何退出以进程等待的前因后果

🧑‍💻作者: 情话0.0 📝专栏:《Linux从入门到放弃》 👦个人简介:一名双非编程菜鸟,在这里分享自己的编程学习笔记,欢迎大家的指正与点赞,谢谢! 进…

编写动态库

1.创建库.c .h文件 2.编写Makefile文件 3.make之后形成.so文件 4.make output,形成mylib 5.把mylib拷贝到test里面 mv mylib /test 6.编译 gcc main.c -I mylib/include -L mylib/lib -lmymethod形成a.out 但是直接执行会出现以下问题 很显然没有找到动态库 7.解决加载找不…