Ankündigung des Schulungsbetreibers für Amazon SageMaker HyperPod
Heute kündigen wir die allgemeine Verfügbarkeit von Amazon SageMaker HyperPod Training Operator an, einer speziell entwickelten Kubernetes-Erweiterung für belastbare Foundation-Modelltrainings auf HyperPod.
Mit Amazon SageMaker HyperPod können Kunden die Entwicklung von KI-Modellen auf Hunderten oder Tausenden von GPUs mit integrierter Ausfallsicherheit beschleunigen und das Modelltraining um bis zu 40 % reduzieren. Mit zunehmender Ausdehnung der Schulungscluster wird die Erholung von Schulungsunterbrechungen immer schwieriger. Die Wiederherstellung nach einem Ausfall erfordert traditionell einen kompletten Neustart des Auftrags auf allen Knoten, wenn auch nur ein einziger Schulungsprozess ausfällt, was zu zusätzlichen Ausfallzeiten und höheren Kosten führt. Darüber hinaus erfordert die Identifizierung und Behebung kritischer Schulungsprobleme, wie z. B. blockierte Grafikprozessoren, geringer Schulungsdurchsatz und numerische Instabilitäten, in der Regel einen komplexen benutzerdefinierten Überwachungscode, was die Entwicklungszeiten weiter verlängert und die Markteinführung verzögert.
Mit dem HyperPod-Schulungsoperator können Kunden die Widerstandsfähigkeit von Schulungen für Kubernetes-Workloads weiter verbessern. Anstelle eines vollständigen Neustarts bei Fehlern führt der HyperPod-Schulungsoperator eine chirurgische Wiederherstellung durch, wobei nur die betroffenen Schulungsressourcen selektiv neu gestartet werden, um eine schnellere Wiederherstellung nach Fehlern zu ermöglichen. Darüber hinaus wird eine anpassbare, hängende Auftragsüberwachung eingeführt, um problematische Schulungsszenarien wie festgefahrene Schulungs-Batches, nicht-numerische Verlustwerte und Leistungseinbußen durch einfache YAML-Konfigurationen zu bewältigen. Die ersten Schritte sind einfach: Erstellen Sie einen HyperPod-Cluster, installieren Sie das Add-on für den Schulungsoperator, definieren Sie optional benutzerdefinierte Wiederherstellungsrichtlinien für hängende Aufträge und starten Sie die Schulung.
Diese Version ist allgemein in allen AWS-Regionen verfügbar, in denen SageMaker HyperPod derzeit unterstützt wird.
Weitere Informationen finden Sie in der Dokumentation.