Amazon SageMaker HyperPod unterstützt jetzt automatisches Slurm-Topologie-Management
Amazon SageMaker HyperPod wählt jetzt automatisch die optimale Netzwerktopologiekonfiguration für Slurm-Cluster auf der Grundlage der GPU-Instance-Typen im Cluster aus und verwaltet diese kontinuierlich. Die Netzwerktopologie wirkt sich direkt auf die verteilte Trainingsleistung aus. Wenn Jobs auf Knoten platziert werden, die topologisch nahe beieinander liegen, sind die GPU-zu-GPU-Kommunikation schneller, die kollektiven NCCL-Operationen effizienter und der Trainingsdurchsatz besser. HyperPod passt die Topologie dynamisch an, wenn sich der Cluster durch Skalierungsvorgänge und den Austausch von Knoten weiterentwickelt, sodass die Job-Platzierung während des gesamten Cluster-Lebenszyklus optimiert bleibt, ohne dass manuelle Aktualisierungen der Topologiedateien oder eine Slurm-Neukonfiguration erforderlich wird.
HyperPod überprüft die Instance-Typen in allen Instance-Gruppen bei der Clustererstellung, identifiziert die Netzwerk- und Verbindungsmerkmale der einzelnen Instance-Typen und wählt automatisch das am besten geeignete Topologiemodell aus. HyperPod unterstützt die Baumtopologie für Instance-Typen mit hierarchischen Verbindungen wie ml.p5.48xlarge, ml.p5e.48xlarge und ml.p5en.48xlarge sowie die Blocktopologie für Instance-Typen mit einheitlicher Konnektivität mit hoher Bandbreite wie ml.p6e-gb200.NVL72. Für Cluster mit gemischten Instance-Typen wählt HyperPod eine kompatible Topologie aus, die auf allen Knoten funktioniert. Wenn sich der Cluster durch Hochskalierung, Abskalierung oder den Austausch von Knoten ändert, aktualisiert HyperPod die Topologiekonfiguration automatisch ohne manuelles Eingreifen, sodass die Topologie immer den tatsächlichen Zustand des Clusters widerspiegelt.
Erstellen Sie zunächst einen Slurm-Cluster für SageMaker HyperPod mit unterstützten GPU-Instance-Typen. Die topologiebezogene Planung ist standardmäßig aktiviert und erfordert keine Konfiguration.
Diese Funktion ist in allen AWS-Regionen verfügbar, in denen Amazon SageMaker HyperPod unterstützt wird. Weitere Informationen zur topologiebezogenen Planung finden Sie in der Dokumentation zu Amazon SageMaker HyperPod.