集约管控、按需分配:和鲸聚焦 AI for Science 科研算力高校调配

news2024/11/23 8:48:12

随着人类社会进入信息时代的智能化阶段,数据逐渐成为基础生产要素之一,而算力也因此成为重要生产力。《学习时报》9 月 3 日发文《算力为何如此重要》,文中指出,人工智能技术的突破与产业数字化应用对算力提出了更高的要求;在 9 月 20 日的华为全联接大会上,孟晚舟也演讲表示,算力是人工智能发展的核心驱动力,决定着 AI 的迭代与创新速度。

目前,国内政产学研各界对于人工智能与算力的重视程度日益升高,其中,又以科研界为甚。今年三月,国家科技部会同自然科学基金委正式启动“人工智能驱动的科学研究(AI for Science)”专项部署工作,旨在基于科学数据算力支撑,通过人工智能的方法,进行计算密集高效迭代的科学探索,为科研工作带来新的突破。

科研范式正不断升级,传统基础设施却已逐渐不能响应新兴 AI for Science 所需的软硬件支持。本文将聚焦科研算力如何高效调度管理,为各领域研究团队介绍数据科学协同平台 ModelWhale,以期为由人工智能驱动的科学研究提供助力。

一、科研期待与现状

科研期待:研究过程中算力高效、精准的调配,使资源在组织团队内发挥最大可用性

实际情况:缺少合适的计算、存储资源整合渠道,无法兼顾算力集群与个人实践环境

人工智能驱动的科学研究项目普遍属于大型、复杂计算任务,例如 GPU 集群模型训练、大语言模型部署调用等,对硬件要求高,普通的个人 pc 于本地无法满足相应算力需求。

因此,高校与科研机构会预先购置高规格服务器,但此类服务器一般较为分散,组织层面上很难进行整合利用;云上对资源进行集群调度理论上可行,但相关部署、运维工作繁琐且专业性强,组织内需找到合适的人选并为此花费大量时间精力;即使得以成功运维,研究者们也往往苦于无法兼顾算力集群与个人实践环境

二、人工智能驱动科学研究的高效算力调度管理

异构融合、集约管控、按需分配、敏捷响应,ModelWhale 强大的算力调度管理使个人电脑调用 LLM 大语言模型成为可能,也使算力资源在组织团队内发挥最大可用性。

异构融合:算力接入的私有化部署与运维

独立部署的 ModelWhale 在算力接入上可选择本地服务器(需要高效利用已有硬件设备客户的首选)、私有云或来自各主流云厂商提供的云服务,无论是哪种方式,基于云原生技术方案的 ModelWhale 都可灵活对接,同时支持跨云调度。

部署完成后,ModelWhale 将提供全套运维服务与完整售后机制,做到全程跟进。一般性问题,可于线上远程支持;严重或复杂问题,ModelWhale 团队也可到当地进行解决,不再浪费研究组织内的人力资源做相关运维工作。

集约管控:各规格算力的统一管理

选择本地服务器完成算力接入,意味着已将高校与科研机构组织内的既有资源做了集成,下一步便是各规格算力的统一管理,即,如何将集成资源更方便地利用起来,并分配给不同老师、研究者的项目课题组。

通过 ModelWhale,大型组织的管理人员可利用图形化操作界面,根据核数与内存大小对算力进行拆分,再依据不同的使用需求分配给不同群体。举例来说,AI for Science 过程中经常出现大型复杂计算任务,因此需要较高规格的 CPU 算力或 GPU 集群,那么,较为基础的算力资源则可同步分配给高校内的教学团队用于课程实践,做到各规格算力都不闲置。

此外,ModelWhale 还提供资源申用机制,当现有计算存储资源不够用时,项目组的管理人员可通过发起申请及时获得算力补给,应对不同研究需求。

算力资源按需分配至不同的项目课题组

按需分配:精细化、灵活的算力调度

如果说各规格算力统一管理的着眼点在于从高校与科研机构的大型组织到组织内不同的项目课题组,那么精细化、灵活的算力调度则更关心项目组内人员间的算力调配。

人工智能驱动的科学研究项目组内使用算力资源属于“高规格+高并发场景,如何将有限的算力分配给组内较多的研究人员?同组织管理员一样,项目组的管理人员同样可通过简单的点选式操作完成远程资源的分配与管控,精细到组内的每个成员,包括配置可使用特定资源的类型与时长。而通过算力上云,项目组内研究人员的研究环境不再局限于办公室、实验室的网络或电脑,个人 pc 也可随时随地进行相关研究。

项目组管理员、负责人对组内研究者们的算力进行实时把控也是杜绝资源浪费的一种途径;在算力紧缺的情况下,ModelWhale 不仅提供资源排队机制,也支持为组内成员配置资源使用优先级,使其优先完成部分相对重要的研究工作;最后,算力申请机制同样适用于项目课题组内,申请将由管理人员审核,通过后即可根据各研究者的需求自动发放相应资源。

计算资源管理 - 资源使用界面

敏捷响应:算力资源的即开即用

算力同分析环境、镜像一样,在 ModelWhale 内属于即开即用的一部分:获得项目组管理人员分配的算力后,组内研究者在开始项目前自主选取所需算力,即可一键完成资源调用,开始数据研究工作;研究过程中,也可随时查看平台算力、内存、磁盘的使用情况;项目关闭、算力使用结束后,资源也会自动释放,供组内其他有需要的研究人员使用。

当遇到大型、复杂的计算任务时,新上线的 Pipeline 功能支持任务编排与并行计算,该功能属于模型离线训练的一环,可使训练过程中的相关算力调度变得更为高效。

三、结束语

在技术革命与顶层政策的引领下,科研界正给予数据、算力、人工智能越来越多的关注。

数据科学协同平台 ModelWhale 科研版聚焦数据驱动研究的协同创新,是以推动 AI for Science 科研范式改革、加强有组织科研为己任的数字化基础设施:关注从数据、算法到模型等研究对象的一站式全流程管理,从基础设施层面提升科学研究的可复现性,帮助营造协作协同的良好科研生态;基于 FAIR 原则与开放科研理念为数据等研究生产资料提供安全、完善的公开共享门户在线交互工作台;异构融合、集约管控、按需分配、敏捷响应,强大的算力调度管理使个人电脑调用 LLM 大语言模型成为可能,也使算力资源在组织团队内发挥最大可用性;引入 ModelOps 理念,助力大模型全生命周期管理。

ModelWhale 科研版覆盖地球科学、生物医学、人文社科等专业领域,且已将最佳实践落实于国家气象信息中心、中国自然资源航空物探遥感中心等国家级科研机构,希望能为每一位从事数据创新研究的开拓者及其团队提供支持。任何相关需求,都欢迎您进入 ModelWhale 官网 注册体验,或点击【联系产品顾问(移动端跳转)】与我们展开交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1045778.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

怎么把一个音频平均拆分成多个?3个方法快速拆分

怎么把一个音频平均拆分成多个?近年来,随着音频文件在日常生活和工作中的广泛应用,人们对于对音频进行编辑、处理和转换的需求也越来越高。由此,音频编辑软件应运而生,可帮助我们轻松地剪辑、切分、编辑和转换音频文件…

Blender纹理UV映射快速入门

推荐:用 NSDT编辑器 快速搭建可编程3D场景 Blender 的功能包括 UV 映射,它是指将 3D 模型的表面展开到 2D 平面上并将纹理或图像应用到模型表面的过程。 这是创建具有真实纹理的 3D 模型的重要组成部分。 最新版本的 Blender (3.4) 包含有用的更新和功能…

大规模语言模型的模型结构--解码器结构(PaLM,BLOOM,InstructGPT系列)

与编码器结构(encoder-only) 的语言模型结构相反, 解码器结构(decoder-only) 的语言模型结构只包含trans- former 结构里的 decoder 部分。在 BERT 发布之前的 GPT- 1 就是 decoder-only 的语言模型, 但在 GPT-3 发布并展 示其惊人表现后, de…

PSINS工具箱学习(二)姿态的表示:姿态阵、四元数、欧拉角、等效旋转矢量的概念和转换

原始 Markdown文档、Visio流程图、XMind思维导图见:https://github.com/LiZhengXiao99/Navigation-Learning 文章目录 一、基础概念1、坐标系定义1. 惯性坐标系( i 系 )2. 地心地固坐标系( e 系 )3. 导航坐标系( n 系&…

Tomcat报404问题的原因分析

1.未配置环境变量 按照需求重新配置即可。 2.IIs访问权限问题 注意:这个问题有的博主也写了,但是这个问题可有可无,意思是正常情况下,有没有都是可以访问滴放心 3.端口占用问题 端口占用可能会出现这个问题,因为tomcat的默认端口号是8080,如果在是运行tomcat时计算机的…

深度学习与视频直播美颜sdk:背后的技术革新

时下,深度学习技术在视频直播美颜sdk中的应用正引领着一场技术革新的浪潮。本文将探讨深度学习如何在视频直播美颜sdk背后推动了技术的革新,以及它是如何影响我们的日常直播体验的。 一、传统美颜技术的局限性 在深入探讨深度学习之前,让我们…

目标识别项目实战:基于Yolov7-LPRNet的动态车牌目标识别算法模型

目标识别项目:基于Yolov7-LPRNet的动态车牌目标识别算法模型(一) 前言 目标识别如今以及迭代了这么多年,普遍受大家认可和欢迎的目标识别框架就是YOLO了。按照官方描述,YOLOv8 是一个 SOTA 模型,它建立在以前 YOLO 版本的成功基…

MacOS Sonoma 14更新:优化小组件、升级视频会议、沉浸式游戏体验等

苹果今天发布新闻稿,宣布以免费软件更新形式,正式发布 macOS Sonoma,为 Mac 带来一系列丰富新功能。 在 macOS Sonoma 中,桌面小组件解锁了个性化 Mac 与提升效率的全新方式,引入精美的新屏幕保护程序、视频会议和 Saf…

golang工程——grpc TLS配置

TLS配置 非对称加密流程 TLS流程 这是单向TLS流程 ECDHE握手过程(图片来自透视Http协议课程) 浏览器发送Client Hello消息 客户端向服务器打招呼,消息中包含客户端生成的随机数C,客户单的TLS版本号,可使用的密码套…

SkyWalking分布式链路追踪学习

为什么要用分布式链路追踪 实际生产中,面对几十个、甚至成百上千个的微服务实例,如果一旦某个实例发生宕机,如果不能快速定位、提交预警,对实际生产造成的损失无疑是巨大的。所以,要对微服务进行监控、预警&#xff0…

nodejs进阶知识

文章目录 写在前面一、dependencies、devDependencies和peerDependencies区别:二、需要牢记的npm命令2.1 npm2.2 npm config list2.3 npm配置镜像源 三、npm install 的原理四、package-lock.json的作用五、npm run 的原理六、npx6.1 npx是什么6.2 npx的优势6.3 npm…

linux使用md5sum校验下载文件是否完整/被篡改

素材:cuda的run文件(见下图)。 网址:点击这里 任务:检验下载的cuda_11.7.0_515.43.04_linux.run文件是否完整。 步骤: 图片下方倒数第2行,提供了文件的checksum。 找到我需要的checksum&#…

用Python让字符串整齐排列:左对齐、右对齐还是居中对齐?

文章目录 左对齐使用字符串的对齐属性使用`format`函数右对齐使用字符串的对齐属性使用`format`函数居中对齐使用字符串的对齐属性format 居中对齐多行字符串居中对齐在Python中,可以使用字符串的对齐属性以及format函数来实现字符串的对齐。下面将分别介绍左对齐、右对齐、居…

如何实现朋友圈一键转发?

还在用传统的发朋友圈方式吗?NO NO NO 快来看看,新的发圈姿势等你get!企业统一编辑任务,定时发送、立即发送随你心情。统一素材,一键发送,轻松操作,尤其是节假日,员工放假&#xff0…

Rust 在前端都干了些啥

前言 这里有一篇两年前的文章:Rust 是 JavaScript 基础设施的未来,应该还是有挺多人看到过的。当时在前端社区上还掀起了一阵 Rust 风,有人说怎么天天造轮子,有人说实在是学不动了,也有人抱着积极的心态去拥抱新东西。…

C++之std::atomic解决多线程7个问题(二百四)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生…

Redis的安装与基本使用

文章目录 Linux 环境下安装Redis下载Redis 安装包解压安装包安装Redis进入redis安装包下编译并且安装到指定目录下 启动redis配置远程访问找到Redis.config文件 Windows 环境下安装Redis说明官方提供方式安装或启用WSL2在WSL(Ubuntu)上安装Redis启动Redi…

【QT+CUDA】QT中使用cuda,QT+VS+cuda下载安装配置

文章目录 相关网址汇总: 一、软件安装:VS、CUDA、QT1 安装VS1.1 下载1.2 vs2017安装1.3 vs2015安装 2 安装CUDA2.1 下载2.2 安装2.3 测试2.4 卸载 3 安装QT3.1 下载3.2 安装 二、QT使用cuda1 .pro文件 三、常用操作1 NVIDIA控制面板:显卡、驱…

口袋参谋:如何快速补充缺失的免费流量入口?30秒就可操作!

​在淘宝店铺运营过程中,流量过低怎么办? 我相信很多卖家会选择付费流量,如:直通车、引力魔方等付费推广,虽然说它们的流量来的比较快,但是也要花大价钱去投流。 如果想免费提高店铺流量的,不妨…

rv1126-rv1109-烧录方法之TFTP

注意:开机按ctrl+C既可以进入uboot指令集 因为之前习惯了用RK的烧录工具,为了兼容ssd202d的烧录方法 于是我开始尝试了使用ssd202d的方法烧录 SSD202D的方法是 烧录uboot 然后用TFTP烧录下去,于是我开始尝试 烧录前三个即可,后面的img用tftp烧录,由于工作量太…