kaggle新赛:蛋白质功能预测大赛baseline

news2024/11/28 0:44:40

日前,Kaggle发布了CAFA 5 Protein Function Prediction蛋白质功能预测大赛。这是一个机器学习中的序列预测任务,需要你开发一个基于蛋白质氨基酸序列和其他数据的模型,预测一组蛋白质的功能。

该竞赛评估参与者对蛋白质序列的基因本体论(GeOntology, GO)术语的预测。

测试集分为三个子生物学:分子功能(MolecularFunction,MF)、生物过程(Biological Process,BP)和细胞成分(Cellular Component,CC)。参与者对每个子生物学分别进行评分。最后的性能指标是在三个子生物学上计算的最大F-measures的算术平均值。考虑到GO的层次结构,使用了加权精度和召回率。评估代码是公开的。

Baseline简析

对任何AI项目的建模过程如下(以往期为例):

part1: data preprocess()

1.1 从预训练的蛋白质功能预测模型(ProtBERT, T5等)中形成初始的embedding.

1.2 从train_terms生成标签,通过考虑蛋白质集中最常见的前k个GO项,为每个蛋白质生成长度为K的稀疏向量,用来指示K个GO项在蛋白质中的真实概率(0或1)

part2: build_transform()/ build_dataset()/ build_dataloader()

2.1 组合蛋白质ID以及对应的embedding到pytorch框架

part3: buiild_mode()

3.1 形式化建模为输入形状为(E,) 输出为(K, )的概率,此时可用任何分类模型进行探索实验,例如timm里面若干分类模型. 下面只是简单的CNN1D + MLP

part4: build_loss() & build_metric()

4.1 探索利用分类loss

4.2 利用F1-meature等指标进行验证

part5: train_one_epoch(), eval_one_epoch(), test_one_epoch()

由于篇幅关系,此处只贴部分代码

关注下方【学姐带你玩AI】🚀🚀🚀

回复“蛋白质”领取完整baseline

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/597994.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3D元宇宙数字展厅—虚拟智能化办公展厅引领未来办公新风尚

随着数字化技术和虚拟现实的迅猛发展,传统的办公方式正在经历一场革命性的变革。在这个数字化时代,虚拟智能化办公展厅正以其独特的优势和创新的展示方式,引领着未来办公的新风尚。 让我们一同探索虚拟智能化办公展厅的魅力,以及它…

k8s入门(二)之Deployment、DaemonSet、Job、CronJob

一、Deployment使用 状态:Available部署完成,Progressing进行中,Complete已经完成,Failed失败的 失败原因:Quota不足,ReadingnessProbe失败,image pull失败,Limit Ranges范围&#x…

一分钟跑出 AI 图像的生成平台

*Stability AI 最近推出了一个名为 StableStudio 的 AI 图像生成平台,这是一个开源的、基于社区驱动的平台,任何人都可以访问和使用。StableStudio 提供了一系列功能强大的工具和库,包括预训练模型、数据集、模型评估和调试工具等&#xff0c…

NSSCTF之Web篇刷题记录(13)

NSSCTF之Web篇刷题记录[12] [GXYCTF 2019]BabyUpload:[GKCTF 2020]cve版签到:[HCTF 2018]Warmup:[GDOUCTF 2023]泄露的伪装:[羊城杯 2020]easycon:[HNCTF 2022 Week1]Interesting_include: NSSCTF平台&…

还有人不知道,加盟连锁店该怎么做?酒店加盟连锁店如何招商?

还有人不知道,加盟连锁店该怎么做?酒店加盟连锁店如何招商? 想要创业的新人,一进到电商行业,看到繁杂的模式以及激烈的竞争关系,都没到平台亏钱的那一步,自己就先泄气了。一个企业能否发展起来&…

The Category-theoretic Perspective of Statistical Learning for Amateurs

统计学习.范畴论视角 title: The Category-theoretic Perspective of Statistical Learning for Amateurs author: Congwei Song description: A representation in BIMSA The Category-theoretical Perspective of Statistical Learning for Amateurs Congwei Song Email: …

基于SSM的疫苗接种平台

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

抢先看!文档控件aspose.words 新版本23.05 有哪些亮点?

Aspose.Words是一种高级Word文档处理API,用于执行各种文档管理和操作任务。API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsoft Word。 Aspose API支持流行文件格式处理,并…

Flutter-布局(Layout)原理

1、约束、尺寸、位置 overrideWidget build(BuildContext context) {return Scaffold(body: LayoutBuilder(builder: (context, constraints) {print("body约束:" constraints.toString());return Container(color: Colors.black,width: 300,height: 300,child: L…

计算机中丢失vcomp140.dll解决方案,可以使用这个3种方法修复

vcomp140.dll是一个动态连接库文件,它是Microsoft Visual Studio 2015应用程序所必需的运行库文件之一。它在Visual C Redistributable for Visual Studio 2015包中提供,是用于支持Microsoft C/C OpenMP Runtime的库文件。计算机中丢失vcomp140.dll无法打…

LNMP网站框架搭建(编译安装)

目录 一、Nginx的工作原理 工作进程: 二、Nginx编译安装安装 三、mysql的编译安装 四、php的编译安装 验证PHP与nginx的是否连接 验证lnmp的是否搭建成功 五、部署 Discuz!社区论坛 六、fpm参数优化 一、Nginx的工作原理 php-fpm.conf …

Redis数据类型之String——字符串、数值、bitmap

Redis数据类型之String——字符串、数值、bitmap 注意索引位置一般从左到右 0开始,叫正向索引。从右到左-1开始叫反向索引 字符串 字符串有很多操作set、get、append、setrange、getrange等,每个都有自己对应的用处 SET SET key value 设置指定 key …

单元测试系列:一、了解spring boot单元测试

一、java 单元测试框架 java当前主流的测试框架有两个:JUnit、TestNG。 1、两者相同点 使用annotation,且大部分annotation相同。都可以进行单元测试(Unit test)。都是针对Java测试的工具。 2、两者不同点 JUnit只能进行单元…

【Axure教程】大小图动态轮播

大小图动态轮播常用于展示多张图片,其中包含两种不同尺寸的图片。这种类型的轮播通常用于网站首页、产品展示、广告宣传等场景,提供更丰富的展示方式,吸引用户的注意力并提供更多信息。通过切换不同的图片,可以有效地传达多个内容…

采购异常支出怎么造成的?如何控制?

采购管理中的"异常支出 "是指在企业预定的支出规则之外进行的交易。虽然大多数大型采购都是与知名供应商合作,并直接通过采购团队的合同进行,但并不是所有的采购都是这样正式进行的,这可能会导致支出不明的问题。 什么原因造成异常…

15-创建Vue3.0工程

目录 1.使用 vue-cli 创建2.使用 vite 创建 1.使用 vue-cli 创建 官方文档:https://cli.vuejs.org/zh/guide/creating-a-project.html#vue-create ## 查看vue/cli版本,确保vue/cli版本在4.5.0以上 vue --version ## 安装或者升级你的vue/cli npm insta…

创建孔、缩放、复制和粘贴

创建孔 项目概况: 在本项目中,您将学习如何使用孔特征从另一个形状中去除材料。 在Tinkercad上查看整个项目 指示 将蓝色多边形形状拖动到工作平面上,并将其放置在以橙色勾勒的区域。 提示: 您可能需要向下滚动形状列表才能找到…

kendoUI中的Observable详解

kendoUI中的Observable方法 一、前言 Kendo UI是一个基于JavaScript的开源UI框架,它提供了一系列的UI组件和工具,包括表格、图表、表单、对话框等。Kendo UI中的Observable是一个非常重要的概念,它可以帮助我们更好地理解和使用Kendo UI。 …

如何把握住数字化时代的浪潮,数据要素是关键

随着美国、欧洲的数字、数据战略相继出现,这意味着数据在未来的价值已经不是什么秘密,而是对未来世界发展的共识。IDC曾经预测过到2025年中国产生的数据总量将会达到48.6ZB,占全球的27.8%。这就是在未来发展数据战略的底气,也标志…

二叉树详解:带你掌握二叉树

目录 前言1. 树型结构1. 1 树的概念1.2 树的特点1.3 树的相关术语 2. 二叉树(binary tree)2.1 二叉树的概念2.2 二叉树中的特殊树2.2.1 满二叉树2.2.2 完全二叉树 2.3 二叉树的性质 3. 二叉树的遍历3.1 前序遍历3.2 中序遍历3.3 后序遍历3.4 层序遍历 总…