Amazon SageMaker HyperPod unterstützt jetzt den programmgesteuerten Neustart und Ersatz von Knoten
Amazon SageMaker HyperPod präsentiert heute die allgemeine Verfügbarkeit neuer APIs für programmgesteuerte Neustarts und den Austausch von SageMaker HyperPod-Clusterknoten. SageMaker HyperPod unterstützt Sie bei der Bereitstellung robuster Cluster für die Ausführung von Machine Learning (ML)-Workloads und die Entwicklung hochmoderner Modelle wie Large Language Models (LLMs), Diffusionsmodelle und Basismodelle (FMs). Mit den neuen BatchRebootClusterNodes- und BatchReplaceClusterNodes-APIs können Kunden Clusterknoten, die nicht reagieren oder degradiert sind, programmgesteuert neu starten oder ersetzen. Auf diese Weise entsteht ein einheitlicher, vom Orchestrator unabhängiger Ansatz für die Knotenwiederherstellung.
Die neuen APIs verbessern die Knotenverwaltungsfunktionen für Slurm- und für EKS-orchestrierte Cluster und erweitern bestehende Workflows für den Neustart und den Austausch von Knoten. Bestehende Orchestrator-spezifische Methoden, wie etwa Kubernetes-Labels für EKS-Cluster und Slurm-Befehle für Slurm-Cluster, sind zusammen mit den neu eingeführten programmgesteuerten Funktionen für Neustarts und Ersetzungen in diesen speziell entwickelten APIs weiterhin verfügbar. Wenn Clusterknoten aufgrund von Problemen wie Speicherüberläufen oder Hardware-Verschleiß nicht mehr reagieren, sind oft Wiederherstellungsvorgänge wie Neustarts oder Knotenaustausche erforderlich, die mit diesen neuen APIs initiiert werden können. Diese Funktionen sind besonders nützlich für zeitkritische Workloads. Wenn beispielsweise ein Slurm-Controller oder ein Anmelde-/Rechenknoten nicht mehr reagiert, können Administratoren mit der API einen Neustart auslösen und dessen Fortschritt überwachen, bis die Knoten wieder betriebsbereit sind. In ähnlicher Weise können EKS-Clusteradministratoren degradierte Worker-Knoten programmgesteuert ersetzen. Jede API unterstützt Batch-Operationen mit bis zu 25 Instances und ermöglicht so eine effiziente Verwaltung umfangreicher Wiederherstellungsszenarien.
Die APIs zum Neustarten und Ersetzen werden derzeit in drei AWS-Regionen unterstützt, in denen SageMaker HyperPod verfügbar ist: USA Ost (Ohio), Asien-Pazifik (Mumbai) und Asien-Pazifik (Tokio). Die APIs sind über die AWS-CLI, das SDK oder über API-Aufrufe verfügbar. Weitere Informationen finden Sie in der Amazon SageMaker HyperPod-Dokumentation für BatchRebootClusterNodes und BatchReplaceClusterNodes.