Amazon SageMaker HyperPod unterstützt jetzt die kontinuierliche Bereitstellung für Slurm-orchestrierte Cluster

Veröffentlicht am: 25. März 2026

Amazon SageMaker HyperPod erweitert jetzt die kontinuierliche Bereitstellungsunterstützung anhand des Slurm-Orchestrators auf Cluster, um Unternehmenskunden, die umfangreiche KI-/ML-Trainingsworkloads ausführen, mehr Flexibilität und Effizienz zu bieten. Kunden im Bereich KI/ML, die Slurm-basierte Cluster nutzen, müssen schnell mit dem Training beginnen, nahtlos skalieren, Wartungsarbeiten ohne Betriebsunterbrechungen durchführen und einen detaillierten Einblick in den Clusterbetrieb haben. Bisher schlug der gesamte Vorgang der Clustererstellung oder Skalierung fehl, wenn eine Instance-Gruppe nicht vollständig bereitgestellt werden konnte, wobei ein Rollback durchgeführt wurde – dies führte zu Verzögerungen und erforderte manuelles Eingreifen.

Dank kontinuierlicher Bereitstellung für Slurm reserviert SageMaker HyperPod automatisch die verbleibende Kapazität im Hintergrund, während Trainingsjobs sofort auf verfügbaren Instances gestartet werden können. Das System verwendet eine prioritätsbasierte Bereitstellung, um zuerst den Slurm-Controller-Knoten hochzufahren, gefolgt von Anmelde- und Worker-Nodes in paralleler Ausführung, sodass der Cluster so schnell wie möglich betriebsbereit ist. HyperPod wiederholt fehlgeschlagene Knotenstarts asynchron und fügt dem Slurm-Cluster automatisch Knoten hinzu, sobald sie verfügbar sind. Dadurch wird sichergestellt, dass Cluster zuverlässig die gewünschte Größe erreichen, ohne dass ein manuelles Eingreifen erforderlich ist. Sie können jetzt gleichzeitige, nicht blockierende Skalierungsvorgänge für mehrere Instance-Gruppen gleichzeitig ausführen: Ein Mangel an Kapazitäten in einer Instance-Gruppe blockiert nicht mehr die Skalierung in anderen. Diese Funktionen helfen Kunden, die Zeit bis zum Trainieren zu verkürzen, die Ressourcenauslastung zu maximieren und sich auf Innovationen statt auf die Verwaltung der Infrastruktur zu konzentrieren.

Diese Funktion ist für neue SageMaker-HyperPod-Cluster verfügbar, die den Slurm-Orchestrator verwenden. Sie können die kontinuierliche Bereitstellung aktivieren, indem Sie beim Erstellen neuer HyperPod-Cluster mithilfe der CreateCluster-API den Parameter NodeProvisioningMode auf „Kontinuierlich“ setzen. Die kontinuierliche Bereitstellung kann auch aktiviert werden, wenn neue Cluster über die AWS CLI und die SageMaker-AI-Konsole erstellt werden.

Diese Funktion ist in allen AWS-Regionen verfügbar, in denen Amazon SageMaker HyperPod unterstützt wird. Weitere Informationen zur kontinuierlichen Bereitstellung finden Sie im Benutzerhandbuch für Amazon SageMaker HyperPod.