Amazon SageMaker HyperPod Slurm-Cluster unterstützen jetzt die Angabe von Mindestkapazitätsanforderungen mit kontinuierlicher Bereitstellung

Veröffentlicht am: 27. Mai 2026

Amazon SageMaker HyperPod unterstützt jetzt Mindestkapazitätsanforderungen (MinCount) für Cluster, die Slurm-Orchestrierung mit kontinuierlicher Bereitstellung verwenden. Bei der kontinuierlichen Bereitstellung stellt HyperPod Cluster mit verfügbarer Teilkapazität bereit, sodass Sie Ihre KI/ML-Jobs schnell starten können, während die verbleibenden Instances weiterhin asynchron im Hintergrund bereitgestellt werden. Dies bietet zwar Flexibilität, für einige Trainingsworkloads ist jedoch eine garantierte Mindestanzahl an Knoten erforderlich, bevor sie effektiv gestartet werden können. Mit MinCount können Sie die Mindestanzahl von Instances angeben, die erfolgreich bereitgestellt werden müssen, bevor eine Instance-Gruppe in den InService-Status übergeht. So haben Sie mehr Kontrolle darüber, wann Ihr Cluster für die Jobplanung verfügbar wird.

Dies ist besonders nützlich für verteilte Trainingsworkloads, die Frameworks wie PyTorch FSDP, Megatron-LM oder NVIDIA NeMo verwenden, wo Trainingsjobs üblicherweise mit einer festen Anzahl teilnehmender Knoten konfiguriert werden und möglicherweise nicht effizient oder korrekt mit teilweiser Clusterkapazität gestartet werden. Dies kommt auch Teams zugute, die eine grundlegende GPU-Anzahl sicherstellen müssen, um SLA- oder Kosteneffizienzziele zu erreichen, bevor sie sich zu einem Trainingslauf verpflichten.

Sie können MinInstanceCount in der CreateCluster- oder UpdateCluster-API-Anforderung angeben, um einen Schwellenwert für die Mindestkapazität für eine Instance-Gruppe festzulegen. Die Instance-Gruppe bleibt im Status „Creating“ oder „Updating“, bis der Schwellenwert erreicht ist. Dann wechselt sie zu „InService“ und die Knoten werden für die Slurm-Jobplanung verfügbar. HyperPod startet weitere Instances, die über MinCount hinausgehen, bis die Zielanzahl erreicht ist. Wenn MinCount nicht innerhalb von 3 Stunden erfüllt werden kann, setzt das System die Instance-Gruppe automatisch auf ihren letzten als funktionierend bekannten Zustand zurück.

MinCount für Slurm-Cluster mit kontinuierlicher Bereitstellung ist in allen AWS-Regionen verfügbar, in denen Amazon SageMaker HyperPod unterstützt wird. Informationen zum Angeben der Mindestkapazitätsanforderungen für Ihren Cluster finden Sie unter Mindestkapazitätsanforderungen (MinCount) in der Amazon SageMaker AI-Dokumentation.