Amazon SageMaker HyperPod 现在支持仅限 EFA 的网络接口

发布于: 2026年6月1日

Amazon SageMaker HyperPod 现在支持集群实例组使用仅限 EFA 的网络接口,使您能够配置专用的 Elastic Fabric Adapter(EFA)设备,而无需使用传统的弹性网络适配器(ENA)进行 IP 网络通信。SageMaker HyperPod 是一款专为 AI/ML 模型开发而构建的基础设施,可提供具有内置容错能力和自动集群恢复能力的弹性、高性能环境。现在,借助仅限 EFA,您可以进一步扩展 AI/ML 集群,而不会面临 VPC 中 IP 地址耗尽的风险。

运行大规模分布式训练工作负载时,节点间通信带宽对训练性能至关重要。SageMaker HyperPod 集群实例支持多个支持 EFA 的网络接口,但如果使用标准的 efa 接口类型进行配置,每个接口都会同时连接一个 EFA 设备和一个 ENA 设备(用于 IP 网络通信)– 即使节点内仅需在部分接口上启用 IP 网络通信也是如此。efa 接口类型会不可避免地为每个连接的 ENA 设备使用子网中的 IP 地址,这可能导致 IP 地址耗尽,并限制您在单个子网中可部署的节点数量。此次发布后,您现在可以在为 HyperPod 集群实例组配置网络接口时设置 efa-only。此选项将网络接口专用于 EFA 流量,而不连接 ENA 设备,从而使您能够最大限度地增加专用于低延迟、高吞吐量节点间通信的 EFA 接口数量。由于仅限 EFA 的接口不需要 IP 地址,您可以扩展到相同子网中的更大集群,而不会遇到 IP 耗尽的情况。这种配置特别适用于大规模分布式训练作业,在这些作业中,节点间通信带宽至关重要,且无需在每个接口上配置专用 IP 网络。

要启用仅限 EFA,请在通过 CreateCluster/UpdateCluster API 创建或更新 HyperPod 集群时,在 ClusterNetworkInterface 配置中指定 efa-only。仅限 EFA 现已在支持 Amazon SageMaker HyperPod 的所有 AWS 区域推出。要了解更多信息,请参阅《Amazon SageMaker API 参考》中的 ClusterNetworkInterface