Amazon SageMaker HyperPod unterstützt jetzt tiefgreifende Zustandsprüfungen auf Abruf
Amazon SageMaker HyperPod unterstützt jetzt tiefgreifende Zustandsprüfungen auf Abruf für Amazon-EKS- und SLURM-orchestrierte Cluster, sodass Sie den Zustand des GPU Accelerators auf laufenden Instances jederzeit proaktiv überprüfen können. HyperPod-SLURM-orchestrierte Cluster unterstützen jetzt auch gründliche Zustandsprüfungen während der Knotenbereitstellung zum Zeitpunkt der Clustererstellung. Diese Funktion löst ein kritisches Problem, bei dem selbst ein einziger fehlerhafter Knoten Stunden an Rechenzeit verschwenden und kritische Workloads verzögern kann.
Mit umfassenden Zustandsprüfungen auf Abruf können Sie ganze Instance-Gruppen oder bestimmte Instances ins Visier nehmen, um umfassende Hardware-Stresstests und Konnektivitätstests durchzuführen, bevor Sie Rechenressourcen für einen Job bereitstellen. Fortschritte und Ergebnisse sind sowohl auf Instance-Gruppen- als auch auf Instance-Ebene über die SageMaker-Konsole und die APIs sichtbar und bieten einen vollständigen Überblick über den GPU-Zustand, die Netzwerkkonnektivität und die Kommunikationsleistung mit mehreren Knoten. Instances, die einer Überprüfung unterzogen werden, werden automatisch von der Workload-Planung isoliert und nach Bestehen wieder in Betrieb genommen. In Kombination mit der automatischen Knoten-Wiederherstellungsfunktion von HyperPod werden ausfallende Instances automatisch neu gestartet oder ersetzt, wodurch der Cluster-Zustand sichergestellt wird.
Diese Funktion ist in allen Regionen verfügbar, in denen Amazon SageMaker HyperPod verfügbar ist. Weitere Informationen zu Zustandsprüfungen auf Abruf finden Sie in der Dokumentation.