Amazon SageMaker HyperPod が Slurm トポロジーの自動管理をサポート

投稿日: 2026年4月23日

Amazon SageMaker HyperPod は、クラスター内の GPU インスタンスタイプに基づいて Slurm クラスターの最適なネットワークトポロジ設定を自動的に選択し、継続的に維持するようになりました。ネットワークトポロジーは分散型トレーニングのパフォーマンスに直接影響します。トポロジ的に近いノードにジョブを配置すると、GPU 間の通信が速くなり、NCCL の集合操作がより効率的になり、トレーニングスループットが向上します。HyperPod は、スケーリング操作やノード交換によるクラスターの進化に合わせてトポロジーを動的に適応させるため、トポロジーファイルを手動で更新したり、Slurm を再構成したりすることなく、クラスターのライフサイクル全体を通じてジョブの配置を最適化できます。

HyperPod は、クラスター作成時にすべてのインスタンスグループのインスタンスタイプを検査し、各インスタンスタイプのネットワークと相互接続の特性を識別し、最適なトポロジーモデルを自動的に選択します。HyperPod は、ml.p5.48xlarge、ml.p5e.48xlarge、ml.p5en.48xlarge などの階層的相互接続を使用するインスタンスタイプではツリートポロジーをサポートし、ml.p6e-gb200.NVL72 などの均一な高帯域幅接続を使用するインスタンスタイプではブロックトポロジーをサポートします。インスタンスタイプが混在するクラスターの場合、HyperPod はすべてのノードで機能する互換性のあるトポロジーを選択します。スケールアップ、スケールダウン、またはノード交換イベントによってクラスターが変化すると、HyperPod は手動で操作しなくても自動的にトポロジー構成を更新するため、トポロジーには常にクラスターの実際の状態が反映されます。

使用を開始するには、サポートされている GPU インスタンスタイプを使用して SageMaker HyperPod Slurm クラスターを作成してください。トポロジー認識スケジューリングはデフォルトで有効になっており、設定は不要です。

この機能は、Amazon SageMaker HyperPod がサポートされているすべての AWS リージョンで利用できます。トポロジー認識スケジューリングの詳細については、Amazon SageMaker HyperPod のドキュメントを参照してください。