发布于: May 10, 2021

Amazon SageMaker 现在支持 Elastic Fabric Adapter (EFA),用于训练机器学习模型。EFA 是 Amazon EC2 实例的网络接口,使客户能够在 AWS 上大规模运行需要高级别节点间通信的应用程序。EFA 可大幅度加快 SageMaker 上的分布式训练,而无需额外费用。例如,我们利用 SageMaker 的分布式数据并行库在 32 个 ml.p4d.24xlarge 实例上训练了 BERT 自然语言处理模型。Elastic Network Adapter (ENA) 相比,使用 EFA 进行训练的速度提高了 130%。

分布式训练使开发人员和数据科学家能够更快地训练模型并提高模型质量。客户之所以使用 SageMaker 分布式训练库,是因为它们提供了快速和简单的方法来训练大型深度学习模型和数据集。EFA 独特的“操作系统旁路联网机制”增强了实例间的通信性能,从而使 SageMaker 上的分布式训练更加快速。 

在 SageMaker 上使用 EFA,不会产生额外费用。SageMaker 中的 EFA 目前在 ml.p3dn.24xlarge、ml.p4d.24xlarge 和 ml.c5n.18xlarge 实例上受支持。使用 TensorFlow 和 PyTorch 深度学习容器的 SageMaker 分布式训练作业会自动利用 EFA,无需客户采取任何操作。只需稍微更改一下配置,就可以对使用 VPC 或自定义 Docker 镜像的训练作业启用 EFA。 

要了解有关 Amazon SageMaker 支持 EFA 的更多信息,请参阅 SageMaker 分布式训练库如何在容器中使用 EFA 进行训练文档。要开始使用,请登录 Amazon SageMaker 控制台