Amazon SageMaker HyperPod 現在支援僅限 EFA 的網路介面

張貼日期: 2026年6月1日

Amazon SageMaker HyperPod 現在支援叢集執行個體群組的僅限 EFA 網路介面,使您無需使用傳統的彈性網路介面卡 (ENA) 來設定用於 IP 網路功能的專用 Elastic Fabric Adapter (EFA) 裝置。SageMaker HyperPod 是針對 AI/ML 模型開發專門建置的基礎架構,能夠提供具有內建的容錯能力和自動化叢集復原的彈性高效能環境。現在有了僅限 EFA 網路介面,您就能進一步擴展 AI/ML 叢集,而無須面臨 VPC 中 IP 位址耗盡的風險。

執行大規模分散式訓練工作負載時,節點間通訊頻寬對訓練效能至關重要。SageMaker HyperPod 叢集執行個體支援多個具有 EFA 功能的網路介面,但是在使用標準 EFA 介面類型加以設定的情況下,會將 EFA 裝置和 ENA 裝置 (用於 IP 網路功能) 連接至每個介面,即使只有節點內的介面子集上需要 IP 網路也一樣。EFA 介面類型會不可避免地為每個連接的 ENA 裝置消耗子網路中的 IP 位址,這可能導致 IP 位址耗盡,並限制您能夠在單一子網路中部署的節點數量。此版本推出後,您現在就能在為 HyperPod 叢集執行個體群組設定網路介面時,將其設定為僅限 EFA。此選項會將網路介面專門分配給 EFA 流量,而無需連接 ENA 裝置,使您得以將專用於低延遲、高輸送量節點間通訊的 EFA 介面數量最大化。因為僅限 EFA 介面無需 IP 位址,所以您能夠在相同子網路內擴展至較大的叢集,而不會遇到 IP 耗盡的情形。這種組態對於節點間通訊頻寬至關重要,而且不需要每個介面上都具有專用 IP 網路的大型分散式訓練任務特別有價值。

若要啟用僅限 EFA 功能,請在透過 CreateCluster/UpdateCluster API 建立或更新 HyperPod 叢集時,在 ClusterNetworkInterface 組態中指定僅限 EFA。僅限 EFA 網路介面功能適用於支援 Amazon SageMaker HyperPod 的所有 AWS 區域。若要進一步了解,請參閱 Amazon SageMaker API 參考中的 ClusterNetworkInterface