发布于: Mar 26, 2021
Amazon Elastic Kubernetes Service (EKS) 现在支持 Elastic Fabric Adapter (EFA),使应用程序能够获得本地机器学习训练集群的性能,并兼具由 EKS 管理的 Kubernetes 集群所提供的可扩展性、灵活性和弹性。
Kubernetes 已成为分布式机器学习应用程序的领先平台,它通过基于 GPU 的强大实例,使集群可以轻松扩展到大量节点。从规模上讲,网络带宽可能成为分布式工作负载的瓶颈。Elastic Fabric Adapter (EFA) 是 Amazon EC2 实例的网络接口,使您能够在 AWS 上大规模运行需要高级别节点间通信的应用程序。现在,您可以利用新发布的 EFA 设备插件轻松将 EFA 集成到 Kubernetes 上的分布式训练应用程序中,该插件会自动发现 EFA 设备并将其安装到需要它们的 Pod 中。这使您可以在机器学习训练作业水平扩展时增加带宽,以适应不断增长的模型规模。现在,您可以充分利用最新的 EC2 GPU 驱动的实例类型(例如P4d),其中包括多个 EFA 设备,从而可以在模型训练时间上取得更大的改进。