从零入门AI for Science(AI+化学)#Datawhale AI 夏令营

news2024/9/21 12:37:52
基于天池平台“第二届世界科学智能大赛 物质科学赛道:催化反应产率预测”

使用平台

我的Notebook · 魔搭社区
https://modelscope.cn/my/mynotebook/preset

赛事官网

上海科学智能研究院
http://competition.sais.com.cn/competitionDetail/532233/myScore

Task1

Baseline

Q: Notebook 出现异常: back-off 10s restarting failed container=dsw-notebook pod=dsw-587145-696c974c56-xf24f_t1970854481833065(dee2c8a2-3e11-4d90-b052-ed0dca769752)
A: 切换使用阿里云弹性加速计算EAIS

新建文件夹,并将代码和赛事数据从本地拖入到魔塔并解压:

在这里插入图片描述

打开code/Task1_baseline.ipynb笔记本

在这里插入图片描述
等待所有代码运行完毕

生成文件如下把这个下载

在这里插入图片描述

阿里云的不能直接右键下载,可以打开文件然后在工具栏-文件选择下载

在这里插入图片描述

官网上传文件

在这里插入图片描述

得到分数

在这里插入图片描述

至此处Baseline打开完成

Task1 知识点终结

特征提取

官方发布的数据是对化学分子的SMILES表达式,具体来说,有rxnid,Reactant1,Reactant2,Product,Additive,Solvent,Yield字段。其中:

rxnid 对数据的id标识,无实际意义
Reactant1 反应物1
Reactant2 反应物2

Product 产物
Additive 添加剂

(包括催化剂catalyst等辅助反应物合成但是不对产物贡献原子的部分)

Solvent 溶剂

Yield 产率 其中Reactant1,Reactant2,Product,Additive,Solvent都是由SMILES表示。

SMILES

SMILES(Simplified Molecular Input Line Entry System)是一种用于描述化学物质结构的字符串表示法。

它使用ASCII字符表示分子中的原子、键和环,并且可以直观地表示化学结构。

广泛用于数据库存储、化学信息搜索和化学反应预测等应用。

Morgan fingerprint

Morgan指纹(Morgan fingerprint)是一种常用的化学分子表示方法,用于描述分子的结构和特征。

基于分子的拓扑结构构建的表示方法。

Morgan指纹通过计算分子中每个原子周围的环境信息,生成一系列二进制位的向量表示
Morgan指纹将原子周围的邻居原子及它们之间的化学键类型编码成独特的子结构,然后将这些子结构通过一系列散列函数映射到固定长度的比特串。

广泛用于化学信息检索、化学相似性计算、机器学习模型的输入等多种化学应用。

RDKit

RDKit是一个开源的化学信息学工具包,用于分子建模和化学信息处理。(C++编写的)

用途: 分子描述符计算、分子构建、化学反应模拟、分子对接、分子可视化

还提供了一系列用于化学数据处理的工具,如分子文件格式的读写、化学图形学操作、分子指纹生成等。

它是化学信息学领域中一个重要的工具,许多研究和开发项目都依赖于RDKit来进行分子数据处理和分析。

sklearn (scikit-learn)

提供了一组丰富的机器学习算法和工具,包括分类、回归、聚类、降维等,以及模型选择和评估方法等

有丰富的数据预处理和特征工程工具,方便用户对数据进行清洗、转换和选择特征

广泛应用于数据分析、预测建模、图像处理和自然语言处理等领域。

随机森林

随机森林(Random Forest)通过组合多个决策树来进行分类、回归和其他任务。

每个决策树是通过对训练数据随机抽样得到的,而每个决策树的结果通过投票或平均来得到最终的预测结果

主要思想是通过构建多个决策树,每个决策树都对训练数据进行随机抽样,然后基于这些抽样数据构建一个决策树模型。每个决策树都会根据不同的特征进行分割,最终生成一棵成熟的决策树。在预测时,每个决策树会独立地进行预测,然后通过投票或平均来得到最终的预测结果。

随机森林的优势在于它能够处理高维数据和大量训练样本,并且对异常值和噪声具有一定的鲁棒性。
它还可以估计特征的重要性,并且能够处理缺失数据、通过并行计算进行快速训练和预测。
被广泛应用于各种机器学习任务,包括分类、回归、特征选择和异常检测等。它在实践中表现出良好的性能,并且相对于单个决策树来说具有更高的准确性和稳定性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1948245.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

七、SpringBoot日志

1. 得到日志对象 import org.slf4j.Logger; import org.slf4j.LoggerFactory; import org.springframework.stereotype.Controller; import org.springframework.web.bind.annotation.RequestMapping; import org.springframework.web.bind.annotation.ResponseBody; //打印日志…

【Vue实战教程】之Vue工程化项目详解

Vue工程化项目 随着多年的发展,前端越来越模块化、组件化、工程化,这是前端发展的大趋势。webpack是目前用于构建前端工程化项目的主流工具之一,也正变得越来越重要。本章节我们来详细讲解一下如何使用webpack搭建Vue工程化项目。 1 使用we…

Web渗透-WAF绕过技巧

一、WAF简介 Web应用防护系统(也称为:网站应用级入侵防御系统。英文:Web Application Firewall,简称: WAF)。利用国际上公认的一种说法:Web应用防火墙是通过执行一系列针对HTTP/HTTPS的安全策略…

叮!2024 龙蜥操作系统大会议题征集正式启动

定啦!2024 龙蜥操作系统大会(OpenAnolis Conference,以下简称“龙蜥大会”)将于 2024 年 8 月 30 日在北京中关村国家自主创新示范区会议中心盛大召开。 2024 龙蜥大会由中关村科学城管委会、海淀区委网信办、中国开源软件推进联…

配置sublime的中的C++编译器(.sublime-build),实现C++20

GCC 4.8: 支持 C11 (部分) GCC 4.9: 支持 C11 和 C14 (部分) GCC 5: 完全支持 C14 GCC 6: 支持 C14 和 C17 (部分) GCC 7: 支持 C17 (大部分) GCC 8: 完全支持 C17,部分支持 C20 GCC 9: 支持更多的 C20 特性 GCC 10: 支持大部分 C20 特性 GCC 11: 更全面地支持 C20 …

uniapp开发精选短视频视频小程序实战笔记20240725,实现顶部轮播图和热门短剧

创建项目 创建项目,叫video_app。 在pages.json里面修改一下标题: 新建search搜索页面和me我的页面。 此时界面预览效果如下: 引入静态资源 主要是static里面的内容,全部复制过来。 配置底部导航栏 pages.json,放到顶层,和全部样式同级: "tabBar&quo…

Java的类加载机制

Java的类加载机制是指将类的字节码文件(.class文件)加载到JVM中并将其转换为Class对象的过程。这个过程由类加载器(ClassLoader)完成。Java的类加载机制具有动态性和灵活性,使得Java能够支持动态加载类、实现模块化开发…

4s店客户管理系统小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,门店管理,车展管理,汽车品牌管理,新闻头条管理,预约试驾管理,我的收藏管理,系统管理 微信端账号功能包括&a…

HTTP请求入参类型解读

HTTP请求入参类型解读 Content-Type 在HTTP请求中,Content-Type请求头用于指示资源的MIME类型,即请求体的媒体类型。它告诉服务器实际发送的数据类型是什么,以便服务器能够正确地解析和处理这些数据。Content-Type可以有多种值,…

13.2 MongoDB

13.2 MongoDB 1. 概述2. docker安装3. SpringBoot整合MongoDB3.1 依赖3.2 配置连接1. 基于`yml`配置2. 基于配置类配置3.3 启动项坑1坑23.4 新增业务1. 实体类映射2. 数据层3. 业务层4. 控制层5. 测试结果3.5 单条记录查询业务1. 数据层2. 业务层3. 控制层4. 断点测试3.6 分页查…

代码随想录算法训练营day6 | 242.有效的字母异位词、349. 两个数组的交集、202. 快乐数、1.两数之和

文章目录 哈希表键值 哈希函数哈希冲突拉链法线性探测法 常见的三种哈希结构集合映射C实现std::unordered_setstd::map 小结242.有效的字母异位词思路复习 349. 两个数组的交集使用数组实现哈希表的情况思路使用set实现哈希表的情况 202. 快乐数思路 1.两数之和思路 总结 今天是…

FoundationDB 基本使用

目录 一、FoundationDB介绍 二、安装单机版FoundationDB 2.1 下载安装程序 2.2 安装FoundationDB 2.3 修改配置信息 2.4 管理FoundationDB服务 三、fdbcli的常用命令 3.1连接数据库 3.2退出fdbcli 3.3查看版本 3.4 写模式 3.5写入键值 3.6读取键值 3.7删除键值 …

花几千上万学习Java,真没必要!(二十七)

1、Math类: package mathtest.com; public class MathDemo { public static void main(String[] args) { // 定义圆的半径 double radius 5.0; // 计算并打印圆的周长 double circumference 2 * Math.PI * radius; System.out.printf("圆的周长: %.2f…

Vue 状态管理 Vue CLI

Vue 状态管理 & Vue CLI 1、状态管理2、集中状态管理2.1 Vuex2.1.1 Vuex核心概念2.1.2 Vuex Store实例2.1.3 Vuex Getter2.1.4 Vuex Mutation2.1.4 Vuex Actions2.1.4 Vuex Module 2.2 Pinia2.2.1功能增强 3、Vuex 实现原理4、Pinia 实现原理5、CLI5.1 实现 1、状态管理 将…

【机器学习】激活函数:神经网络的灵魂

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 激活函数:神经网络的灵魂什么是激活函数?常见激活函数类型1. Sigmo…

Linux环境安装KubeSphere容器云平台并实现远程访问Web UI 界面

文章目录 前言1. 部署KubeSphere2. 本地测试访问3. Linux 安装Cpolar4. 配置KubeSphere公网访问地址5. 公网远程访问KubeSphere6. 固定KubeSphere公网地址 前言 本文主要介绍如何在Linux CentOS搭建KubeSphere并结合Cpolar内网穿透工具,实现远程访问,根…

UE4调试UE4Editor-Cmd.exe

在工作中,我们看到这样的构建命令: %EnginePath%\Binaries\Win64\UE4Editor-Cmd.exe %ClientPath%\%ProjectName%.uproject -runHotPatcher {其它参数} 我们应该如何调试UE4Editor-Cmd.exe呢?其实调试 UE4Editor.exe 就可以了(参考…

Mac安装Hoomebrew与升级Python版本

参考 mac 安装HomeBrew(100%成功)_mac安装homebrew-CSDN博客 /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)" 安装了Python 3.x版本,你可以使用以下命令来设置默认的Python版本: # 首先找到新安…

IDEA安装并使用通义灵码

IDEA安装并使用通义灵码 通义灵码介绍安装通义灵码 通义灵码介绍 在数字革命的前沿,阿里云技术团队匠心独运,倾力打造“通义灵码”——一个融合尖端科技的智能编码助手,旨在革新软件工程的未来。 实时代码扩展 通义灵码具备深度理解代码脉络的…

opencascade AIS_Line源码学习

前言 AIS_Line 是 OpenCASCADE 库中的一个类,用于表示和操作三维直线。它可以通过几何线(Geom_Line)或者两个几何点(Geom_Point)来初始化。 方法 1 //! 初始化直线 aLine。 Standard_EXPORT AIS_Line(const Handl…