Amazon SageMaker HyperPod 現在支援自動 Slurm 拓樸管理

張貼日期: 2026年4月23日

Amazon SageMaker HyperPod 現在會根據叢集中的 GPU 執行個體類型，自動選取並持續維護 Slurm 叢集的最佳網路拓樸組態。網路拓樸會直接影響分散式訓練效能 — 當將工作放置在拓撲結構上相近的節點上時，GPU 與 GPU 的通訊會更快、NCCL 集體作業會更有效率，並且訓練輸送量也會提高。HyperPod 會透過擴展作業和節點替換，隨著叢集的不斷發展而動態調整拓樸，因此工作位置會在整個叢集生命週期中保持最佳化狀態，而不需要對拓樸檔案進行手動更新或 Slurm 重新設定。

HyperPod 會在建立叢集時檢查所有執行個體群組的執行個體類型、識別每個執行個體類型的網路和互連特性，並自動選取最適合的拓樸模型。HyperPod 針對使用階層互連的執行個體類型 (例如 ml.p5.48xlarge、ml.p5e.48xlarge 和 ml.p5en.48xlarge) 支援樹狀拓樸，並針對使用一致高頻寬連線之執行個體類型 (例如 ml.p6e-gb200.NVL72) 支援區塊拓樸。針對使用混合執行個體類型的叢集，HyperPod 會選取適用於所有節點的相容拓樸。當叢集透過擴展、縮減或節點取代事件而出現變更時，HyperPod 會在不需要手動干預的情況下自動更新拓樸組態，因此拓樸會始終反映叢集的實際狀態。

若要著手使用，請建立具有支援之 GPU 執行個體類型的 SageMaker HyperPod Slurm 叢集。系統預設已啟用拓樸感知排程，且不需要設定。

此功能適用於支援 Amazon SageMaker HyperPod 的所有 AWS 區域。若要進一步了解拓樸感知排程，請瀏覽 Amazon SageMaker HyperPod 文件

Amazon SageMaker HyperPod 現在支援自動 Slurm 拓樸管理

了解

資源

開發人員

說明