1.模型迁移、模型调试调优背景介绍
模型训练\推理过程中可能遇到的问题:
• 代码编写错误,问题难以定位;
• 模型结构错误;
• 权重更新错误;
• 损失函数设计错误;
• 半精度下计算溢出;
• Loss scale调整不当;
• 过拟合、欠拟合;
• 梯度消失/爆炸;
• 激活值饱和;
• 学习率设置不当;
• 批大小(batch size)、期(Epoch)设置不当;
• 模型训练/推理慢;
• …
2.MindSpore介绍
关键特性
1.自动并行:动整图切分,感知集群拓扑,实现通信开销最小融合数据并行与模型并行:
2.二阶优化:利用二阶计算修正梯度更新方向,找到训练梯度最优下降路径,从而加速训练收敛过程。
3.动静态图结合:统一自动微分引擎支持动静态图,一行代码完成模式切换,兼顾模型开发和执行效率。
4.全场景部署协同: 超轻量技术,模型压缩、自适应模型生成loT超轻量运行时,基于异构的混合并行。
5.全栈协同加速: 通过多级并行、图算融合等深度图优化,以及跨层内存复用技术,发挥异腾极致性能;
6.迁移及调试工具:覆盖生态迁移、精度调优、性能调优全场景可视化,脚本迁移自动化,降低开发门槛,提高调试效率
7.AI+科学计算,场景应用创新,拓展MindSpore的边界
8.安全可信,首个企业级AI可信计算框架 (Trusted AI)
3.MindInsight介绍
本章总结
• 常见调试调优问题:过拟合、欠拟合等;
• MindSpore关键特性:
– 自动并行;
– 二阶优化;
– 全场景部署协同;
– 动静统一等;
• MindInsight关键特性:
– 生态迁移工具;
– 精度调试器;
– 性能调试器;
– 训练过程可视;
– 模型可解释;