提升科研可复现性:和鲸聚焦 AI for Science 全生命周期管理

news2024/11/23 13:48:43

今年三月,国家科技部会同自然科学基金委正式启动“人工智能驱动的科学研究(AI for Science)”专项部署工作。数据驱动的科学研究长期以来面临诸多困境,针对传统科研工作流中过度依赖人类专家经验与体力的局限性,AI4S 旨在基于科学数据算力支撑,通过人工智能的方法,进行计算密集高效迭代的科学探索,为科研工作带来新的突破。

然而,随着科研范式的不断升级,传统基础设施已逐渐不能响应新兴 AI for Science 所需的软硬件支持。本文将聚焦“从数据、算法到模型的研究对象一站式全流程管理”,为各领域研究团队介绍数据科学协同平台 ModelWhale,以期为由人工智能驱动的科学研究提供助力。

一、科研期待与现状

科研期待:项目能有完整的生命周期,结项不是项目的终结,后续能够复用是项目生命的存续

实际情况:“作坊模式”而非“平台科研”,无法串联团队工作,成果复现效率低,项目生命周期短

对既往研究成果进行复用以赋予项目完整生命周期中的“复用”定义十分宽泛:可以是复用既往项目中的“中间成果”,譬如仅仅一个代码片段;也可以是“阶段性较为完整的成果”,譬如一个模型或搭建完成的一个镜像;还可以是对于某一类项目较为流程化、规范化的“研究范式”。

同时,此类“复用”是跨时间、跨人员的。然而事实上,由于项目研究成果缺少系统的归纳管理,加之项目组人员时有更替,随着时间的流逝,极容易忘却之前的研究成果,即使记起、有复用的打算,也很难将其翻找出来、辅以配套环境完整复现。即使大家都赞同,合理复用从长远能够节省大量时间,为避免当下的麻烦,项目进行过程中大部分相关人员还是会选择重头再来。

二、人工智能驱动科学研究的全生命周期管理

ModelWhale 聚焦从数据、算法到模型等研究对象的一站式全流程管理,从基础设施层面提升科学研究的可复现性,帮助营造有组织科研的良好生态。

项目从零生产

01 多源数据接入、管理

数据驱动研究的地基便是数据本身,而部署于传统基础设施的数据驱动研究在数据管理上主要依赖的还是人力。而通过 ModelWhale,在保证数据安全的前提下,研究者们不仅能够创建不同类型的数据源,例如数据集、数据库连接、对象存储连接、NAS 空间、标注数据等,更是能够对相关数据源进行概述、标识、版本管理、评论及分发共享。ModelWhale 为研究者们提供的数据接入与管理功能就是要为数据驱动研究打好基础,令广大研究人员不必再为数据管理的底层繁复工作浪费时间。

NAS 空间内进行数据接入、管理、协作、分析等操作题

02 即开即用免装包

解决了数据问题便从零生产项目,而生产项目的第一步,往往是装包搭建环境。作为云端数据科学协同平台,ModelWhale 提供 Notebook 交互式、Canvas 拖拽式、CloudIDE 三种云端分析环境,并支持 Python、R 等数种编程语言,适配研究者们不同的编程需求与习惯;另外平台内已配备多种通用与特定学科镜像,新建项目时直接选定即可,真正做到即开即用——打开 ModelWhale,不需要配置任何环境,即可开始项目研究,省时省力。

快速新建 Notebook 开始研究标题

内置多种镜像供不同领域研究者使用标题

03 版本管理支持非确定性问题探索

配置好环境即可开始数据分析、编程建模。一般的编程操作不必多说,选定相应的分析界面、算力、镜像开始即可。值得一提的是,数据驱动研究一般关注的是对于不确定性问题的探索,面对一个新课题,在最开始,往往并不能够明确哪种方法与手段可达成研究目的,我们需要多种多样的尝试。因此,ModelWhale 在这里能够提供的额外功能就是非 Git 逻辑控制的版本管理,不会太重,随时进行项目的版本比对与 Cell 级版本回溯,支持广大研究者们的从零探索。

版本比对与版本回溯,一键接受历史版本

04 模型离线训练:解放精力、资源

另外,针对于数据驱动研究普遍存在的大型复杂计算任务,例如深度学习等,如前文所述,ModelWhale 首先支持将 NAS 目录作为数据源挂载进分析环境,从而实现对超大数据的分析研究,其次还支持模型的离线训练功能,即在电脑关闭后训练任务仍可继续,解放研究人员的时间与精力,同时提供训练结果可视化比对,协助高效进行模型的调参与选择。一句话总结,ModelWhale 将从各种细节缓解研究者们繁复的底层工作。

新建模型离线训练任务

05 多人协作、团队协同

科学研究往往不是一个人的工作,对于复杂项目,组内进行多人分摊是很常有的事,而 ModelWhale 不仅关乎数据科学,更是云端协同创新平台,助力多人协作研究义不容辞。通俗来说,可以将 ModelWhale 想象为代码版的主流云文档软件,能够实现多人在线编辑同个项目,当然,为避免代码碰撞出现的 bug,需要生成版本才能将进展同步给他人。另外 ModelWhale 还具备任务规划的项目管理工具,负责人可以新建课题任务,并将其拆分成子任务进行分发,协同团队共同完成复杂的项目研究。最后,多人协作不仅着眼于某一项目组内部,我们也关注跨行业、跨领域的合作协同:运用 Canvas 功能,代码能力较弱的各领域理论学者可与数据科学家们同时工作,理论学者负责以功能模块搭建研究思路,数据科学家将其转化为实操代码,相辅相成、事半功倍。

项目管理工具,任务规划界面

用 Canvas 快速搭建分析流程

复用既往研究

01 复用自定义镜像,不必人人造轮子

ModelWhale 本身内嵌了多种通用与特定学科镜像,新建项目时直接选定即可,那么若这些镜像无法满足当下研究需求又该怎么办呢?这时,研究人员可新建自定义镜像以匹配当前需求。但这并不表示项目组内的每个研究者在开始研究前都需要进行此步操作,一旦完成契合研究需求自定义镜像的新建,该镜像可以分发给组织内的任意成员进行复用,不必人人造轮子,除了负责新建镜像的第一人,组内其他研究者依然能够即开即用地复用既往已被搭建完成的研究环境。

自定义科研镜像,一键同步给项目组其他研究人员

02 Notebook 代码库:代码片段轻松复用

ModelWhale Notebook 侧边栏中具备代码片段库功能,研究人员在既往研究中可预先收藏有几率被复用到的代码片段,后续进行新一轮研究时,即可在该代码库“我的收藏”中找到相应代码片段,此外,代码库中还包含了一部分官方代码,无论是“公有库”还是“我的收藏”,其中的代码片段都能够在新项目界面进行复用,直接插入即可。最后,代码库内的代码片段支持组织内的权限管理与分发,研究人员 A 收藏的代码片段可便捷复用至 B 的项目。

代码片段收藏与复用

03 Canvas 组件:通过可视化规范 Flow 模板创建项目

ModelWhale Canvas 简单来说是基于可视化和模型驱动的理念,通过“拖拉拽”组件,完成应用模型的搭建。这样说有些大而抽象,实际操作中,Canvas 如何被应用到项目成果的复用过程呢?试想一下,当研究人员正进行一套较为繁琐但极其流程化、不需要创新、后续也还会经常进行的项目步骤时,可选择在 Canvas 中运用组件预构这一套步骤,将其封装成为常用的工作流 Flow,后续在别的项目中再次遇见这一套步骤,就可通过 Canvas 模板直接创建项目、确认组件流程,再转化为 Notebook,此时大框架已有,通过代码微调即可实现那一套繁琐且流程化的项目步骤,十分便捷。

通过模板创建 Canvas 项目,并一键另存为 Notebook

04 算法库:实现对算法模型的整理、分享、复用

利用算法库,研究人员可以管理既往研究工作中已产出的算法模型,辅以文字说明,实现对这些算法模型的整理与分享,实际复用时,可将此类成果直接创建项目或模型服务,免去大量冗余的代码编写、模型训练工作,节省时间。此外,ModelWhale 算法库内也已整理部分常用算法,供研究者在进行通用数据分析工作时随时调用。

算法库功能对于算法模型的沉淀管理、一键复现

三、结束语

在技术革命与顶层政策的引领下,科研界正给予人工智能越来越多的关注。数据科学协同平台 ModelWhale 科研版聚焦数据驱动研究的协同创新,是以推动 AI for Science 科研范式改革、加强有组织科研为己任的数字化基础设施:关注从数据、算法到模型等研究对象的一站式全流程管理,从基础设施层面提升科学研究的可复现性,帮助营造协作协同的良好科研生态;基于 FAIR 原则与开放科研理念为数据等研究生产资料提供安全、完善的公开共享门户在线交互工作台;异构融合、集约管控、按需分配、敏捷响应,强大的算力调度管理使个人电脑调用 LLM 大语言模型成为可能,也使算力资源在组织团队内发挥最大可用性;引入 ModelOps 理念,助力大模型全生命周期管理。

ModelWhale 科研版覆盖地球科学、生物医学、人文社科等专业领域,且已将最佳实践落实于国家气象信息中心、中国自然资源航空物探遥感中心等国家级科研机构,希望能为每一位从事数据创新研究的开拓者及其团队提供支持。任何相关需求,都欢迎您进入 ModelWhale 官网 注册体验,或点击【联系产品顾问(移动端跳转)】与我们展开交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1024727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

优化软件系统,解决死锁问题,提升稳定性与性能 redis排队下单

项目背景: 随着用户数量的不断增加,我们的速卖通小管家软件系统面临了一个日益严重的问题:在从存储区提供程序的数据读取器中进行读取时,频繁出现错误。系统报告了一个内部异常: 异常信息如下: 从存储区提供程序的数…

nvme各模块间的关系总结

目录:driver/host/nvme/makefile # SPDX-License-Identifier: GPL-2.0 ccflags-y -I$(src)obj-$(CONFIG_NVME_CORE) nvme-core.o obj-$(CONFIG_BLK_DEV_NVME) nvme.o obj-$(CONFIG_NVME_FABRICS) nvme-fabrics.o obj-$(CONFIG_NVME_RDMA) nvme-rdma.…

02、Servlet核心技术(下)

目录 1 ServletJDBC应用(重点) 2 重定向和转发(重点) 2.1 重定向的概述 2.2 转发的概述 3 Servlet线程安全(重点) 4 状态管理(重点 ) 5 Cookie技术(重点&#xf…

26 环形链表II

环形链表 II 题解1 哈希表题解2 双指针 给定一个链表的头节点 head ,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表…

pgzrun 拼图游戏制作过程详解(10)

10. 拼图游戏继续升级——多关卡拼图 初始化列表Photos用来储存拼图文件名,Photo_ID用来统计当下是第几张拼图,Squares储存当下拼图的24张小拼图的文件名,Gird储存当下窗口上显示的24个小拼图及坐标。 Photos["girl_","boy_…

“顽固”——C语言用栈实现队列

解题图解: 1、 先用stack1存储push来的数据 2、每当要pop数据时,从stack2中取,如果 stack2为空,就先从stack1中“倒”数据到stack2。 这就是用栈实现队列的基本操作 这道题看起来比较容易,但是!如果你用C语…

jupyter notebook插件安装及插件推荐

安装插件 安装插件选择的工具栏 pip install jupyter_contrib_nbextensions将插件工具栏添加到jupyter notebook页面 jupyter contrib nbextension installdisable configuration for nbextensions without explicit compatibility (they may break your notebook environme…

《Kubernetes部署篇:Ubuntu20.04基于containerd部署kubernetes1.25.14集群(多主多从)》

一、架构图 如下图所示: 二、环境信息 1、资源下载基于containerd部署容器版kubernetes1.25.14集群资源合集 2、部署规划主机名K8S版本系统版本内核版本IP地址备注k8s-master-121.25.14Ubuntu 20.04.5 LTS5.15.0-69-generic192.168.1.12master节点 + etcd节点k8s-master-131.…

【超实用】2023年,学生上班族如何简单快速,低成本的搭建一个博客网站

文章目录 前言实操环节香港虚拟机购买博客搭建ssl证书配置备份设置 总结 前言 因为工作和生活的需要,我一直有博客的搭建需求。我将总结下来,为读者提供参考。  起初,我采用的是香港云虚拟主机,这种虚拟机极其便宜(一…

java接入烽火科技拾音器详细步骤

1 背景 项目中需要拾音器去采集音频数据并保存成mp3这种音频文件,以便以后如果有纠纷后可以作为证据去减少纠纷,于是采购了一台烽火科技的拾音器设备,包括一个采音器及一个处理终端。 2 接线 设备拿过来第一件事是接线,通电&…

WampServer下载安装+cpolar内网穿透实现公网访问本地服务【内网穿透】

文章目录 前言1.WampServer下载安装2.WampServer启动3.安装cpolar内网穿透3.1 注册账号3.2 下载cpolar客户端3.3 登录cpolar web ui管理界面3.4 创建公网地址 4.固定公网地址访问 前言 Wamp 是一个 Windows系统下的 Apache PHP Mysql 集成安装环境,是一组常用来…

如何将视频进行分割?这几种分割方法了解一下

当我们将视频分成几段后,可以更好地组织和管理不同的片段,方便后续查找和使用。我们可以根据需要调整视频的长度和内容,满足不同的观看需求。此外,分段视频可以更好地适应不同的观看场景,可以更方便地分享和传播&#…

RocketMQ 源码分析——Consumer

文章目录 消费者启动流程消费者模式集群消费广播消费 Consumer负载均衡集群模式广播模式 并发消费流程获取topic配置信息获取Group的ConsumerList获取Queue的消费Offset拉取Queue的消息更新Queue的消费Offset 顺序消费流程消费存在的问题消费卡死启动之后较长时间才消费 消费者…

操作系统(5-7分)

内容概述 进程管理 进程的状态 前驱图 同步和互斥 PV操作(难点) PV操作由P操作原语和V操作原语组成(原语是不可中断的过程),对信号量进行操作,具体定义如下: P(S)&#…

渗透测试信息收集方法和工具分享

文章目录 一、域名收集1.OneForAll2.子域名挖掘机3.subdomainsBurte4.ssl证书查询 二、获取真实ip1.17CE2.站长之家ping检测3.如何寻找真实IP4.纯真ip数据库工具5.c段,旁站查询 三、端口扫描1.端口扫描站长工具2.masscan(全端口扫描)nmap扫描3.scanport4.端口表5.利…

API(八)cosocket常用SDK

一 同步且非阻塞的底层SDK:cosocket 说明: 本篇章只是对cosocket常用话API的汇总,并没有实际案例加以辅证场景: 许多单机版的中间件都是基于cosocket做的二次开发 OpenResty 的核心和精髓 cosocket ① coscoket常用的指令 个人建议&am…

java jax-ws webservice编程,入门教程,包含服务端与客户端,编码

java jax-ws webservice 就是服务端程序提供接口,客户端,通过服务端提供的jar包(或者打包的类文件),通过jax-ws直接调用服务端暴露的接口来进行操作. 服务端 共三个文件 接口 package com.jaxwsdemo.serveice;import javax.jws.WebMethod; import javax.jws.WebParam; impo…

【java基础】Java常见的创建对象方式

背景: 对于好多程序员来说,你问他,如何创建对象,他可能就只知道new个对象不就行了,但是当我们需要看一些框架的源码的时候,经常发现他们不是这样创建对象,然后回过头来,我们就得补充…

2023.9.18 网络层 IP 协议详解

目录 IP协议 IPv4 32位 源IP 地址 / 32位 目的IP 地址 IP 地址管理 特殊 IP 路由选择 IP协议 IPv4 32位 源IP 地址 / 32位 目的IP 地址 基本知识: 在 IP 报头中一般表示为 32位 二进制整数日常生活中的 IP 一般将 32位 二进制整数,也就是 4字节 的二…

Vue的模板语法(下)

一.事件处理 事件修饰符 Vue通过由点(.)表示的指令后缀来调用修饰符, .stop, .prevent,.capture,.self,.once .stop:阻止事件冒泡。当一个元素触发了事件,并且该元素包含嵌套的父元素时&#…