走近 AI Infra 架构师：在高速飞驰的大模型“赛车”上“换轮子”的人

如果把大模型训练比作 F1 比赛，长凡所在的团队就是造车的人，也是在比赛现场给赛车换轮子的人。1% 的训练提速，或者几秒之差的故障恢复时间，累积起来，都能影响到几百万的成本。长凡说：“大模型起来的时候，我们非常兴奋，因为 DLRover 天生就是为大模型训练的场景设计的。”

目前业界普遍认为数据、算力、算法是大模型训练的三大核心要素，AI 工程的价值似乎还没有得到足够的重视，我们和蚂蚁 DLRover 开源负责人长凡深入聊了聊，聊到了他为何在大模型出现前就选择了 AI Infra 的赛道，他参与开源的经历，也聊了 DLRover 诞生背后的故事。

AI Infra+开源，一个通信毕业生的非主流选择

毕业于盛产程序员的北京邮电大学，虽然本科和研究生专业都是通信相关的，但长凡还是机缘巧合迈入了 AI 的大门，如果你也走在职业发展的路口，或许长凡的故事也能给你带来启发。

Q：首先请介绍下自己，为什么会选择在蚂蚁做 AI Infra 方面的工作？

长凡： 我本科在北交大的理科实验班，研究生在北邮做 5G 移动通信的研究。大四的时候，我去了中国移动研究院实习，做机器学习在医疗领域的应用探索，算是入门了大数据和机器学习。我自己对概率统计和编程也比较感兴趣，发现自己所学的知识可以解决真实问题了。后来在研究生期间，课余时间会打打 Kaggle 比赛，边实践边学习。

毕业之前我来蚂蚁做暑期实习，做 ML Infra 相关的项目。相比打 Kaggle 用算法解决具体业务问题，Infra 的工作能帮助更多的同学来用 ML 解决更多的问题。再加上蚂蚁在大力发展 AI，我所在的蚂蚁人工智能部有很多 AI 方向的资深技术大拿，所以我毕业后选择了留在蚂蚁。

ChatGPT 出来后，大模型一下子火了，大模型相比之前的 AI 训练对 Infra 的需求要高得多，对我们做 Infra 的是一个非常大的机遇。大模型训练和推理的成本非常高，Infra 在提升效率和降低成本上大有可为。

Q：是什么契机让你开始参与开源的？参与开源对你的职业道路产生了哪些影响？

长凡： 在蚂蚁工作一年后，我加入到 ElasticDL 团队，跟着王益老师（原百度 PaddlePaddle 技术负责人）一起做开源项目。在开发 ElasticDL 过程中，王益老师教会了我很多开源思想、开源工作方式和开发习惯。比如新功能需要先写设计文档，然后拆解成 issue，最后是开发测试；PR 要尽量小，小 PR 可以降低 Review 成本；代码质量需要有工具来保障等等。

这段经历对我现在做 DLRover 帮助很大。在 DLRover 项目刚启动时，我就在代码仓库了设置了很多代码质量相关的检测，比如 DLRover 的代码 CI 覆盖率约 80%。后来，张科老师接手带领 ElasticDL，一直给我们强调开放合作。这也使得我在主导 DLRover 的开源过程中对架构设计更加开放。这里说的开放不仅仅指使开源的开放代码，更多的是指我们的架构和接口设计的开放，以便让更多的人能进来扩展相关功能满足各自的业务需求。比如，我们的故障机检测功能当前支持 NVIDIA GPU 和 Ascend NPU，如果用户在其他的芯片上训练，可以自定义检测脚本。

Q：随着大模型的兴起，许多技术人也感受到了前所未有的挑战。作为 AI Infra 领域的架构师 ，你如何评估大型模型或 AI 对传统技术架构师的影响？针对当前的技术趋势，你对于这些架构师有哪些建议？

长凡： 大模型或者 AI 将会改变我们的产品形态和业务模式，而且很多创新可能都是当前看不到或者很难预料的。作为技术架构师，我们的目标其实很简单，利用技术帮助业务发展。我觉得最好的方式就是从业务中来，到业务中去。比如我们做 AI Infra 的，经常和训练算法同学一起盯着训练作业，review 训练代码并分析训练性能，这样从中发现很多训练对 Infra 的实际需求。然后将这些需求抽象出来，利用自己的技术经验来设计项目解决业务问题。

随着大模型技术的发展，不管是对计算、存储等硬件领域，还是对训练框架、分布式系统等软件领域，对于 AI Infra 的架构师都有非常大的需求。如果想从事 AI Infra 领域，可以结合自前的经验深入到 AI 应用中去，一定能做出成果。

DLRover：发展靠机遇，持续发展靠技术判断力

时间拉回到 2022 年 9 月，DLRover 刚刚开源，那时深度学习的训练基本都是在单机多卡上完成的，作为一个分布式训练的智能调度系统，DLRover 的功能似乎有些过于强大，就好像开了一辆百米加速的超跑来上下班。

DLRover 的容错和弹性扩缩容在单机多卡的训练上几乎没有用武之地，团队也很迷茫是否要针对 GPU 训练做优化，所以当 2022 年底，ChatGPT 在全球引起广泛关注的的时候，大规模分布式训练是大模型训练的刚需，长凡一下子就兴奋了。

Q：DLRover是如何诞生的？发展历程中有哪些关键的转折点或者故事？

长凡： DLRover 脱胎于蚂蚁内部的一个项目，主要利用容错和弹性扩缩容来提升搜推广训练的速度和资源利用率。2022 年 7 月，该功能上线后，集群资源利用率提升了快一倍，训练时间也缩短了约 20%。基于自动扩缩容，我们就想让用户只写模型代码，系统能自动地将模型在集群上高效、稳定地和经济地训练出来，从而大幅降低分布式训练的门槛和运维成本。基于这个愿景，我们在 2023 年 3 月开源了项目，并取名 DLRover，Rover 代表火星车，我们把 DL 训练作为火星车的乘客，DLRover 这个火星车的目的就是快速、稳定、节能地将 DL 训练这位乘客送到目的地，即训练出模型。

DLRover 刚开源的时候，发布了 CPU 集群上 TensorFlow 异步分布式训练的自动资源配置与自动扩缩容，该功能可以将算法工程师从作业资源调优上解脱出来。但是发布后社区反响一般，主要原因是搜推广的训练已经比较成熟了，业界也主要在关注 GPU 训练。为此，我们内部也在讨论要不要在 GPU 训练上做点东西。但那时 GPU 训练主要还是 CV 和 NLP 领域，以单机多卡为主，DLRover 的容错和弹性扩缩容好像在单机多卡 GPU 训练上没有用武之地。

正在我们迷茫时，2023 年初大模型火了。因为 GPU 本身的故障率较高，大规模训练经常因为故障而中断，严重影响了大模型训练的进度和集群的利用率。所以 DLRover 在 2023 年的重点方向就是降低故障对训练的影响。后来，DLRover 针对大规模分布式训练的场景，发布了故障自愈功能，该功能吸引了很多大模型训练的同学，也吸引了很多国产 AI 芯片的公司的关注。

Q：DLRover 为什么选择开源？

长凡： DLRover 面向的用户主要使用的是开源技术，比如 TensorFlow 和 PyTorch 等训练框架，Kubernetes 和 Ray 等分布式集群调度系统。开源可以让我们接触到领域里更多的同行，扩宽我们的视野。当前很多公司都在做 AI 训练，大家面临的场景和问题可能都不一样。通过开源交流，我们可以对 AI 训练所面临的问题与挑战有更全面的了解，社区提出来的问题，未来我们也可能会遇到。我们希望 DLRover 不仅能满足蚂蚁内部大模型训练的需求，也能满足整个社区的普遍需求。

Q：如果内部需求和社区需求不一致怎么办？

长凡： 这其实是开源项目经常会遇到的问题，我觉得首先要有技术判断力，判断这个需求是不是一个普遍需求，公司未来是不是也可能用得到。比如，以前我们认为跑大模型训练大多都用英伟达的 GPU 卡，但现在社区开始提出希望我们适配国产芯片的需求，很多国产芯片的公司也来找我们交流，也就是很多人已经开始在国产芯片上去跑训练了，这就是对我认知的一个刷新。如果我们未来买不到 GPU 了，或者国产芯片能达到更好的效果了，我们已经提前做了国产芯片的支持，那这个需求就可以直接上了。

现在很多流行的开源项目，以前 Star 数可能是线性增长，在大模型出来之后是指数增长。就是因为他们两年前就觉得这个事情是一个正确的方向，坚持在做，然后机遇一来，他们就起来了。

Q：开源社区在 DLRover 的发展过程中扮演着怎样的角色？有没有一些特别令你印象深刻的社区贡献者或者故事？

长凡： 开源社区给 DLRover 贡献了很多非常好的思路和有价值的需求。比如 DLRover 的 Flash Checkpoint 功能发布后，社区同学的试用帮我们发现了一些没有测试的 corner case，这帮助我们提高了 DLRover 的产品质量。还有，我们最近吸引了很多国产 AI 芯片公司的关注，社区也提出将我们的训练故障自愈扩展到国产芯片的意愿，这些都是来自一线从业同学的真实声音，是我们发展 DLRover 的宝贵源泉和动力。

未来展望：帮助用户高效、稳定地训练模型

提到对项目未来的规划时，长凡说：“我们希望 DLRover 能帮助用户解决问题，高效、稳定地训练模型。”也希望有更多对 AI 工程感兴趣的开发者能加入到 DLRover 项目，一起推进 AI Infra 领域的发展。

Q：目前还有哪些项目也在做类似的事情吗？和 DLRover 相比有什么不同？

长凡： 分布式训练的弹性容错一直是开源社区在探索的，比如 TorchElastic 和 Elastic Horovod 解决了训练框架的弹性与容错。大模型出来之前，大家训练 NLP 或者 CV 模型主要还是单机或者小规模的集群。小规模训练因为使用的节点少，故障率较低，对弹性容错需求不大。大模型训练一下将训练规模扩大到几百上千卡，故障率就高了很多。同时实际训练中，训练容错和故障自愈需要集群调度、节点管理和训练框架一起协作。所以 DLRover 是将现有的弹性训练框架与节点管理、集群调度相结合来实现快速的训练故障自愈。

训练自愈这块其实很多云厂商也在做，但是都是和自己的云平台耦合的。最近几个月也有好几篇定会文章介绍相关工作。DLRover 是和云平台解耦的，用户只要是在 kubernetes 集群上做分布式训练，就可以使用 DLRover 的训练故障自愈功能。除此之外，由于我们之前在这块有过探索和积累，所以训练稳定性这块的功能开源得比较快。

Q：在 AI Infra 领域，海外有哪些做得比较好的开源项目，对于我们有哪些借鉴意义？

长凡： Flash Attention 和 vllm，这两个框架大幅提升了大模型训练和推理的性能，更重要的是，用户只需要安装 Python 包即可使用。他们的特点就是利用创新解决了一个很难且很有价值的问题，但是又非常简单易用，这对我们有很大启发。比如，我们在设计 DLRover 训练自愈的 Flash Checkpoint 的 API 时，也是尽量让 API 简单易用，用户尽量少改代码就能使用 DLRover。

Q：对于 DLRover 未来的规划，你有什么愿景或目标？

长凡： 我们希望 DLRover 在大模型时代能让更多的用户高效地训练大模型，降低 AI 训练门槛。当前 AI 训练有2个趋势，一方面大家根据 Scaling law 来使用更大规模的集群，来训练越来越大的模型；另一方面很多工作在探索如何在小规模或者单机上微调模型。

不管是大规模预训练还是微调，高效、稳定地训练模型都有困难，需要根据经验反复调试。我们希望 DLRover 能帮助用户解决这方面的问题，也希望能支持到国内的 AI 发展。DLRover 未来在功能和接口设计上会做得更加开放，让用户能在国产芯片上使用 DLRover 高效、稳定地训练模型。当然，我们也非常欢迎更多的同学加入到 DLRover 社区，一起推进 AI Infra 的前进。

Q：最后，给我们预告下你在 GDC 上会分享哪些内容吧

长凡： GDC 上我将分享 DLRover 如何通过训练故障自愈，来降低大规模 AI 训练的成本，帮训练省钱的。以及大家如何来使用 DLRover 来提升训练的效率。

看完长凡的经历和 DLRover 的故事，你是不是对 AI Infra 有了更多兴趣呢？3 月 23 日下午，长凡将在 2024 全球开发者先锋大会(GDC)分享《DLRover 训练故障自愈：大幅提升大规模 AI 训练的算力效率》，欢迎到现场和讲师近距离交流。

在这里插入图片描述

关于 DLRover

DLRover（Distributed Deep Learning System）是蚂蚁集团 AI Infra 团队维护的开源社区，是基于云原生技术打造的智能分布式深度学习系统。DLRover 使得开发人员能够专注于模型架构的设计，而无需处理任何工程方面的细节，例如硬件加速和分布式运行等；开发深度学习训练的相关算法，让训练更高效、智能，例如优化器。目前，DLRover 支持使用 K8s、Ray 进行自动化操作和维护深度学习训练任务。更多 AI Infra 技术请关注 DLRover 项目。

加入 DLRover 钉钉技术交流群：31525020959

DLRover Star 一下：https://github.com/intelligent-machine-learning/dlrover

在 GitHub 关注 DLRover：https://github.com/intelligent-machine-learning/dlrover