发布于: Nov 26, 2018
动态训练是一个开源深度学习项目,可让您利用云的弹性和规模,从而减少模型训练的成本和时间。动态训练的第一个参考实施基于 Apache MXNet,并在使用 Apache MXNet 的动态训练下开源。
传统分布式训练要求使用一组固定的主机,在整个训练过程中积极参与训练任务。借助动态训练,可以放宽此要求:整个训练过程中,允许增加或减少训练集群中的主机数。这意味着训练任务现在能以低成本利用云的计算弹性。通过动态训练,您可以灵活地添加或删除 EC2 Spot 或预留实例,而不会降低准确性,从而显著降低训练成本。若要开始使用,请访问 采用 AWS 上的 Apache MXNet 的动态训练 github 存储库。