Was ist Amazon SageMaker HyperPod?
AmazonSageMaker HyperPod befreit Sie von der aufwändigen Arbeit, die mit dem Aufbau und der Optimierung der Infrastruktur für Machine Learning (ML) zum Training von Basismodellen (FMs) verbunden ist, und reduziert die Trainingszeit um bis zu 40 %. SageMaker HyperPod ist mit den verteilten Trainingsbibliotheken von SageMaker vorkonfiguriert, sodass Kunden Trainingsworkloads automatisch auf Tausende Beschleuniger aufteilen können, damit Workloads parallel verarbeitet werden können, um so die Modellleistung zu verbessern. SageMaker HyperPod stellt zudem sicher, dass Kunden das FM-Training ohne Unterbrechung fortsetzen können, indem regelmäßig Checkpoints gespeichert werden. Wenn während des Trainings ein Hardwarefehler auftritt, erkennt SageMaker HyperPod den Ausfall automatisch, repariert oder ersetzt die fehlerhafte Instance und setzt das Training am zuletzt gespeicherten Checkpoint fort. Dadurch müssen die Kunden diesen Prozess nicht manuell verwalten und können wochen- oder monatelang in einer verteilten Umgebung ohne Unterbrechung trainieren.
Vorteile von SageMaker HyperPod
Fehlersuche und Verbesserung der Modellleistung
Sie können speziell entwickelte ML-Tools in SageMaker HyperPod verwenden, um die Trainingsleistung zu verbessern. Amazon SageMaker mit TensorBoard hilft Ihnen, Entwicklungszeit zu sparen, indem es die Modellarchitektur visualisiert, um Konvergenzprobleme zu identifizieren und zu beheben, wie z.B. Validierungsverlust, nicht konvergierende oder verschwindende Gradienten.
Automatische Zustandsprüfung und Reparatur von Clustern
Wenn Instances während eines Trainings-Workloads defekt werden, erkennt SageMaker HyperPod automatisch fehlerhafte Knoten und tauscht sie gegen gesunde aus. Um fehlerhafte Hardware zu erkennen, führt SageMaker HyperPod regelmäßig eine Reihe von Zustandsprüfungen für GPU- und Netzwerkintegrität durch.
Optimierte verteilte Trainingsbibliotheken
SageMaker HyperPod ist mit verteilten SageMaker-Bibliotheken vorkonfiguriert. Mit nur wenigen Codezeilen können Sie Datenparallelität in Ihren Trainingsskripten aktivieren. Mit SageMaker HyperPod können Sie verteilte Trainings schneller durchführen, indem Sie Ihre Modelle und Trainingsdatensätze automatisch auf AWS-GPU-Instances aufteilen.
Weitere Informationen »