基于天池平台“第二届世界科学智能大赛 物质科学赛道:催化反应产率预测”
使用平台
我的Notebook · 魔搭社区
https://modelscope.cn/my/mynotebook/preset
赛事官网
上海科学智能研究院
http://competition.sais.com.cn/competitionDetail/532233/myScore
Task1
Baseline
Q: Notebook 出现异常: back-off 10s restarting failed container=dsw-notebook pod=dsw-587145-696c974c56-xf24f_t1970854481833065(dee2c8a2-3e11-4d90-b052-ed0dca769752)
A: 切换使用阿里云弹性加速计算EAIS
新建文件夹,并将代码和赛事数据从本地拖入到魔塔并解压:
打开code/Task1_baseline.ipynb笔记本
等待所有代码运行完毕
生成文件如下把这个下载
阿里云的不能直接右键下载,可以打开文件然后在工具栏-文件选择下载
官网上传文件
得到分数
至此处Baseline打开完成
Task1 知识点终结
特征提取
官方发布的数据是对化学分子的SMILES表达式,具体来说,有rxnid,Reactant1,Reactant2,Product,Additive,Solvent,Yield字段。其中:
rxnid 对数据的id标识,无实际意义
Reactant1 反应物1
Reactant2 反应物2
Product 产物
Additive 添加剂
(包括催化剂catalyst等辅助反应物合成但是不对产物贡献原子的部分)
Solvent 溶剂
Yield 产率 其中Reactant1,Reactant2,Product,Additive,Solvent都是由SMILES表示。
SMILES
SMILES(Simplified Molecular Input Line Entry System)是一种用于描述化学物质结构的字符串表示法。
它使用ASCII字符来表示分子中的原子、键和环,并且可以直观地表示化学结构。
广泛用于数据库存储、化学信息搜索和化学反应预测等应用。
Morgan fingerprint
Morgan指纹(Morgan fingerprint)是一种常用的化学分子表示方法,用于描述分子的结构和特征。
基于分子的拓扑结构构建的表示方法。
Morgan指纹通过计算分子中每个原子周围的环境信息,生成一系列二进制位的向量表示。
Morgan指纹将原子周围的邻居原子及它们之间的化学键类型编码成独特的子结构,然后将这些子结构通过一系列散列函数映射到固定长度的比特串。
广泛用于化学信息检索、化学相似性计算、机器学习模型的输入等多种化学应用。
RDKit
RDKit是一个开源的化学信息学工具包,用于分子建模和化学信息处理。(C++编写的)
用途: 分子描述符计算、分子构建、化学反应模拟、分子对接、分子可视化
还提供了一系列用于化学数据处理的工具,如分子文件格式的读写、化学图形学操作、分子指纹生成等。
它是化学信息学领域中一个重要的工具,许多研究和开发项目都依赖于RDKit来进行分子数据处理和分析。
sklearn (scikit-learn)
提供了一组丰富的机器学习算法和工具,包括分类、回归、聚类、降维等,以及模型选择和评估方法等。
有丰富的数据预处理和特征工程工具,方便用户对数据进行清洗、转换和选择特征。
广泛应用于数据分析、预测建模、图像处理和自然语言处理等领域。
随机森林
随机森林(Random Forest)通过组合多个决策树来进行分类、回归和其他任务。
每个决策树是通过对训练数据随机抽样得到的,而每个决策树的结果通过投票或平均来得到最终的预测结果。
主要思想是通过构建多个决策树,每个决策树都对训练数据进行随机抽样,然后基于这些抽样数据构建一个决策树模型。每个决策树都会根据不同的特征进行分割,最终生成一棵成熟的决策树。在预测时,每个决策树会独立地进行预测,然后通过投票或平均来得到最终的预测结果。
随机森林的优势在于它能够处理高维数据和大量训练样本,并且对异常值和噪声具有一定的鲁棒性。
它还可以估计特征的重要性,并且能够处理缺失数据、通过并行计算进行快速训练和预测。
被广泛应用于各种机器学习任务,包括分类、回归、特征选择和异常检测等。它在实践中表现出良好的性能,并且相对于单个决策树来说具有更高的准确性和稳定性。