Amazon SageMaker HyperPod kündigt Unterstützung für Health Monitoring Agents für Slurm-Cluster an
Heute kündigt Amazon SageMaker HyperPod die allgemeine Verfügbarkeit des Health Monitoring Agents für Slurm-Cluster an. SageMaker HyperPod unterstützt Sie bei der Bereitstellung robuster Cluster für die Ausführung von Machine Learning (ML)-Workloads und die Entwicklung hochmoderner Modelle wie Large Language Models (LLMs), Diffusionsmodelle und Basismodelle (FMs). Der Health Monitoring-Agent führt im Hintergrund passive Zustandsprüfungen von Instances durch, um Probleme in wichtigen Bereichen zu identifizieren, ohne dass dies Auswirkungen auf das Verhalten oder die Leistung der Anwendung hat. Er meldet Ausfälle sofort und ersetzt alle fehlerhaften Instances, damit Ihre Trainingsjobs reibungslos ablaufen.
Der Agent läuft kontinuierlich auf allen GPU- oder Trainium-basierten Knoten in Ihrem HyperPod-Cluster und achtet auf Hardwareprobleme wie nicht reagierende GPUs oder NVLink-Fehlerzähler. Wenn ein Fehler erkannt wird, markiert der Agent den Knoten als fehlerhaft und startet automatisch neu oder ersetzt ihn durch einen fehlerfreien Knoten, sodass Ihre Jobs ohne manuelles Eingreifen weiterlaufen. Der Agent verfolgt auch einen koordinierten Ansatz zur Behandlung von Ausfällen mit der Funktion zur automatischen Wiederaufnahme von Jobs, die in Slurm-Clustern verfügbar ist. Beispielsweise werden Jobs, bei denen die automatische Wiederaufnahme aktiviert ist, ab dem zuletzt gespeicherten Checkpoint fortgesetzt, sobald die Knoten durch den Agenten ersetzt wurden. Diese automatische Wiederherstellungsfunktion, die bereits auf HyperPod-Clustern verfügbar ist, die mit Amazon EKS orchestriert wurden, bietet Slurm-Clustern jetzt dieselbe robuste Umgebung, sodass Teams große Modelle wochenlang ohne Unterbrechung trainieren und Zeit und Kosten zurückgewinnen können, die sonst durch Ausfälle während der Ausführung verloren gehen würden. Darüber hinaus können Kunden ihre Knoten jetzt auch mit einem einfachen Befehl neu starten, falls zeitweise Probleme auftreten, z. B. GPU-Treiberprobleme, die ein Reset erfordern.
Der Health Monitoring Agent für Slurm ist in allen Regionen verfügbar, in denen HyperPod allgemein verfügbar ist. Der Agent wird automatisch auf allen neu erstellten Slurm-Clustern aktiviert. Um ihn auf einem vorhandenen Cluster zu aktivieren, aktualisieren Sie einfach auf das neueste HyperPod-AMI, indem Sie die UpdateClusterSoftware API aufrufen. Weitere Informationen finden Sie in der Amazon SageMaker HyperPod-Dokumentation.