文章目录
- 关于 DLRover
关于 DLRover
- github : https://github.com/intelligent-machine-learning/dlrover
DLOver使大型人工智能模型的分布式训练变得简单、稳定、快速和绿色。
它可以在分布式集群上自动训练深度学习模型。
它帮助模型开发人员专注于模型结构,而不需要考虑任何工程方面的东西,比如硬件加速、分布式运行等。
现在,它为K8s/Ray上的深度学习培训工作提供自动化操作和维护。主要功能如下:
- 容错(Fault-Tolerance),单节点故障切换,无需重新启动整个作业。
- 自动缩放(Auto-Scaling),在节点级别和CPU/内存级别自动放大/缩小资源。
- 动态数据分片(Dynamic data sharding),动态调度训练数据到每个工人,而不是平均分配,更快的工人更多的数据。
- 自动资源优化(Automatic Resource Optimization),自动优化工作资源,提高培训绩效和资源利用率。
相关文章
- DLRover:蚂蚁开源大规模智能分布式训练系统
https://blog.csdn.net/SOFAStack/article/details/129394779 - DLRover 在 K8s 上千卡级大模型训练稳定性保障的技术实践
https://blog.csdn.net/SOFAStack/article/details/132843619
2023-10-06