启智社区与MindSpore联合,为MindSpore开发者提供 365天*24小时 上百万卡时的MindSpore+NPU普惠算力,欢迎MindSpore产学研开发者申请,基于MindSpore开发你自己的模型算法套件和应用
嘿~因为了解到日理万机的你可能没有时间仔细阅读完整篇文章,所以我们在开头贴心地附上一份概览,来供大家参考(想要了解详情的小伙伴可以下滑解锁具体内容哦)~
- 有什么好消息?一年份的100万卡时普惠算力正向你袭来(截止到2023年年底前)!注册即用,算力充足管够,调试、训练操作灵活,白嫖不香嘛!
- 怎么白嫖?详情请见下图。
想知道更多内幕?那么请各位系好安全带,我们这就走起~
- “自己训练模型真的是慢死了,数据量和epochs一大真的是要跑到天荒地老,烦死啦!(跑来跑去)(抓耳挠腮)(抓到自己一把脱落的头发后无语凝噎)”
- “欸,怎么没有考虑使用一些AI社区提供的算力?”
- “你说的倒是简单,好多都申请不到,还要花钱,我才不要当纯纯的大冤种。”
- “不是呀,你没听说吗,启智社区最近为MindSpore提供了普惠算力,有100万卡时呢!”
- “什么!你说哪个社区?”
咳咳,不好意思,正是在下——昇思MindSpore社区和启智OpenI社区。
相信有很多小伙伴已经对我们的MindSpore社区和启智社区都有所了解,甚至已经积极参与到过去两个社区举办的活动中,发光发热,以自己的才华折服了一众人(此处应有掌声)。
不过,对我们尚且陌生的小伙伴也不要担心,接下来,就让我们来具体介绍一下这两个社区吧~
昇思MindSpore是新一代覆盖端边云全场景的开源AI框架,旨在开创全新的AI编程范式,降低开发者门槛,为开发者打造开发友好、运行高效、部署灵活的AI框架,推动人工智能生态繁荣发展。同时,昇思在致力于大规模自动并行、科学计算支持等特性优化之外,还着力打造学习型社区环境,希望凝聚开发者力量共建社区,与开发者共同学习和成长。
OpenI启智社区是在国家实施新一代人工智能发展战略背景下,新一代人工智能产业技术创新战略联盟(AITISA)组织产学研用协作共建共享的开源平台,以鹏城云脑科学基础设施及Trustie软件开发群体化方法为基础,全面推动人工智能领域的开源开放协同创新。
听起来是不是特别厉害!而且我们两个社区不仅分则各自为王,平日里也经常手拉手来联合举办活动哦。
2021年,昇思MindSpore社区和OpenI启智社区,秉持着培育我国AI开源开放文化,促进AI产业健康快速发展的理念,吹响了“OpenI启智&MindSpore集结号”,打响一场AI生态的“闪击战”,在28天内完成了28个模型的高效交付,为AI开发者提供了更多模型选择。
在此,我们再次感谢所有人的参与,是大家的努力才让“集结号”活动圆满收官,并取得了如此傲人的成绩~
不仅如此,两大社区也多次联合开展高校行、系列AI前瞻技术讲座及昇思MindSpore赋能培训,旨在鼓励开发者在交流协作间汇聚智慧,为开源AI生态贡献智慧。
但是,你以为这些都足够了嘛?nonono!我们能够提供的远比你想象得多。
如今,为持续促进我国AI开源社区生态繁荣发展,鼓励更多的开发者们积极参与生态建设,OpenI启智社区针对MindSpore+NPU提供了100万卡时的普惠算力,支持可达80P的算力规模。而MindSpore社区也将利用有力的算力支持,结合已有的技术资源,不断丰富算法与模型库,贡献更多、更优质、更有创新性的算法与模型。
到这里,可能有小伙伴要举手提问了:“既然现在有了这么丰富的资源,那么我该怎么申请(白嫖)呢?”
我们知道大家很急,但各位先别急,具体的教程这就为小伙伴们奉上。
如何申请普惠算力?
目前,OpenI启智平台支持使用智算网络集群的资源进行NPU和GPU训练任务(具体可参考平台算力资源说明:https://openi.pcl.ac.cn/resource_desc)。接下来,我们具体了解以下如何基于云脑2(Ascend NPU)的普惠算力进行调试和训练任务。
Part1-调试任务
1. 上传数据集
要使用云脑,需先上传数据集,我们先进入【数据集】页面,点击右侧【上传】按钮。
注:未曾创建过数据集的同学需要先创建数据集,云脑1(CPU/GPU)和云脑2(NPU)数据集无法共用,所以调试使用的数据集也应上传到对应的环境,否则调试任务无法创建成功。
进入上传页面,选择云脑2 的 NPU 集群,然后将数据集直接拖入或点击上传,最后点击【上传】按钮。
2. 新建调试任务
点击【云脑】页面,点击右侧按钮【新建调试任务】。
3. 完成新建任务
在新建任务的页面中,计算资源选择【Ascend NPU】,数据集选择该项目调试相关的数据集,然后点击【新建任务】完成创建。
注1:同一账号在1个或多个项目间,只能同时并发一个训练任务,如有多个训练任务则需要等待相应任务停止才能创建额外的任务,否则会导致任务创建失败。
注2:启智社区当前最高提供MindSpore1.8.1,其包含部分2.0新版本demo特性,推荐使用
注3:NPU 服务器为大家提供32G内存,256G显存来供开发者运行调试任务和训练任务,调试任务可以选择更高规格配置(显存512G)
创建完成后,待状态由CREATING变为RUNNING。
等待时长依据排队情况而定,快的话一般在十秒左右,如果长时间处于等待状态,可以进微信交流群呼叫攻城狮们帮忙看看~
4. 获取数据集下载地址
点击刚创建的任务名称查看任务详情。
进入到任务详情页面后,我们可以看到数据集下载地址,将它复制一下吧,后续就可以在运行环境中粘贴下载了。
5. 进入调试环境
待任务状态变为RUNNING后,点击操作栏的【调试】。
进入 Notebook2.0 环境
6. 克隆代码仓
点击图标,输入代码仓地址进行克隆,也可以新建一个terminal文件输入git clone + 代码仓地址。
7. 下载数据集
wget下载自己的数据集( wget -O 文件名 ‘https://数据集地址' )
注:wget命令中地址两端要加单引号。
接下来大家就可以自行调试啦~
调试任务可自定义运行时间(默认为4小时,上限可达24小时),如果到时间了也可以重启kernel刷新时间,总之可以充分保证大家跑完自己的任务。
Part2-训练任务
1. 创建训练任务
在【云脑】主界面,点击左侧【训练任务】,进入到训练任务的管理页面
点击右侧【新建训练任务】,进入任务创建页面,其中【启动文件】和【数据集】为必填项,需选择该项目相关的文件,且启动文件必须为.py格式的文件(可以点击右侧的查看样例了解如何进行模型训练的详情),所以需先上传代码文件,因前面已经上传过数据集,此处也不再赘述,其他选项默认即可。
2. 训练任务
点击新建任务后,待状态由INIT变更为RUNNING后(由于需要申请算力资源,此过程可能会持续一定时间,稍候即可),项目将开始启动训练。
3. 查看配置信息
点击任务名称,进入到版本管理页面,默认查看配置信息,比如任务运行时长及状态,还有相关参数信息等。训练时长无限制,所以大家放心大胆地使用~
4. 查看训练日志
点击配置信息旁边选项【日志】可以查看相关训练日志,尤其当训练任务失败时,状态会显示为“FAILED”,此时我们可以通过查询日志了解训练失败的原因。
5. 模型下载
如果想要下载训练完毕模型的checkpoint,方便日后加载模型进行预测或者是迁移训练。则需要点击【结果下载】,可以查看训练出的模型,点击模型名称可直接下载。
6. 保存模型
除此之外,还有另一种更便捷的保存模型的方法。点击右上方的【创建模型】,可将训练出的模型统一保存至模型页面进行管理。
在弹出的页面中,可修改模型名称,然后点击【保存模型】即可。
保存完后,页面将自动跳转至模型页面,刚保存的模型也自动列入进来了。
看到如此大规模的算力和完备的教程,有没有很心动呢~那么心动不如行动,快来加入社区来大展身手吧!
最后祝看到这里的你,行行代码无bug,次次运行能跑通,横批:“码到成功”。
Reference:
·OpenI启智&MindSpore 共同吹响AI模型开发集结号
OpenI启智&MindSpore 共同吹响AI模型开发集结号
·28天28个模型高效交付,首期“OpenI启智&MindSpore集结号”圆满结束
28天28个模型高效交付,首期“OpenI启智&MindSpore集结号”圆满结束
·小白训练营第9课-云脑(基于Ascend NPU调试和训练任务)
https://openi.pcl.ac.cn/zeizei/OpenI_Learning/src/branch/master/Tutorial/%E7%AC%AC9%E8%AF%BE-%E4%BA%91%E8%84%91%EF%BC%88%E5%9F%BA%E4%BA%8EAscend%20NPU%E8%B0%83%E8%AF%95%E5%92%8C%E8%AE%AD%E7%BB%83%E4%BB%BB%E5%8A%A1%EF%BC%89%20-%20%E5%89%AF%E6%9C%AC.md