Amazon SageMaker HyperPod 現在支援自動 Slurm 拓樸管理

張貼日期: 2026年4月23日

Amazon SageMaker HyperPod 現在會根據叢集中的 GPU 執行個體類型,自動選取並持續維護 Slurm 叢集的最佳網路拓樸組態。網路拓樸會直接影響分散式訓練效能 — 當將工作放置在拓撲結構上相近的節點上時,GPU 與 GPU 的通訊會更快、NCCL 集體作業會更有效率,並且訓練輸送量也會提高。HyperPod 會透過擴展作業和節點替換,隨著叢集的不斷發展而動態調整拓樸,因此工作位置會在整個叢集生命週期中保持最佳化狀態,而不需要對拓樸檔案進行手動更新或 Slurm 重新設定。

HyperPod 會在建立叢集時檢查所有執行個體群組的執行個體類型、識別每個執行個體類型的網路和互連特性,並自動選取最適合的拓樸模型。HyperPod 針對使用階層互連的執行個體類型 (例如 ml.p5.48xlarge、ml.p5e.48xlarge 和 ml.p5en.48xlarge) 支援樹狀拓樸,並針對使用一致高頻寬連線之執行個體類型 (例如 ml.p6e-gb200.NVL72) 支援區塊拓樸。針對使用混合執行個體類型的叢集,HyperPod 會選取適用於所有節點的相容拓樸。當叢集透過擴展、縮減或節點取代事件而出現變更時,HyperPod 會在不需要手動干預的情況下自動更新拓樸組態,因此拓樸會始終反映叢集的實際狀態。

若要著手使用,請建立具有支援之 GPU 執行個體類型的 SageMaker HyperPod Slurm 叢集。系統預設已啟用拓樸感知排程,且不需要設定。

此功能適用於支援 Amazon SageMaker HyperPod 的所有 AWS 區域。若要進一步了解拓樸感知排程,請瀏覽 Amazon SageMaker HyperPod 文件