Amazon SageMaker HyperPod

Reduzieren Sie die Zeit für das Training von Basismodellen um bis zu 40 % mit einer speziell entwickelten Infrastruktur für verteiltes Training im großen Maßstab.

Was ist Amazon SageMaker HyperPod?

AmazonSageMaker HyperPod befreit Sie von der aufwändigen Arbeit, die mit dem Aufbau und der Optimierung der Infrastruktur für Machine Learning (ML) zum Training von Basismodellen (FMs) verbunden ist, und reduziert die Trainingszeit um bis zu 40 %. SageMaker HyperPod ist mit den verteilten Trainingsbibliotheken von SageMaker vorkonfiguriert, sodass Kunden Trainingsworkloads automatisch auf Tausende Beschleuniger aufteilen können, damit Workloads parallel verarbeitet werden können, um so die Modellleistung zu verbessern. SageMaker HyperPod stellt zudem sicher, dass Kunden das FM-Training ohne Unterbrechung fortsetzen können, indem regelmäßig Checkpoints gespeichert werden. Wenn während des Trainings ein Hardwarefehler auftritt, erkennt SageMaker HyperPod den Ausfall automatisch, repariert oder ersetzt die fehlerhafte Instance und setzt das Training am zuletzt gespeicherten Checkpoint fort. Dadurch müssen die Kunden diesen Prozess nicht manuell verwalten und können wochen- oder monatelang in einer verteilten Umgebung ohne Unterbrechung trainieren.

Vorteile von SageMaker HyperPod

Amazon SageMaker HyperPod ist mit verteilten Trainingsbibliotheken von Amazon SageMaker vorkonfiguriert, sodass Sie Ihre Modelle und Trainingsdatensätze automatisch auf mehrere AWS-Cluster-Instances aufteilen können und so eine effiziente Skalierung der Trainingsworkloads erzielen.
Die verteilten Trainingsbibliotheken von Amazon SageMaker optimieren Ihren Trainingsauftrag für die AWS-Netzwerkinfrastruktur und Clustertopologie durch zwei Techniken: Datenparallelität und Modellparallelität. Bei der Modellparallelität werden Modelle, die für eine einzelne GPU zu groß sind, in kleinere Teile unterteilt, ehe sie für das Training auf mehrere GPUs verteilt werden. Bei der Datenparallelität werden große Datensätze aufgeteilt, um sie gleichzeitig zu trainieren und so die Trainingsgeschwindigkeit zu erhöhen.
SageMaker HyperPod ermöglicht eine belastbarere Trainingsumgebung, indem es Fehler automatisch erkennt, diagnostiziert und behebt, sodass Sie FMs über Monate hinweg ohne Unterbrechung trainieren können.

Fehlersuche und Verbesserung der Modellleistung

Sie können speziell entwickelte ML-Tools in SageMaker HyperPod verwenden, um die Trainingsleistung zu verbessern. Amazon SageMaker mit TensorBoard hilft Ihnen, Entwicklungszeit zu sparen, indem es die Modellarchitektur visualisiert, um Konvergenzprobleme zu identifizieren und zu beheben, wie z.B. Validierungsverlust, nicht konvergierende oder verschwindende Gradienten.

Weitere Informationen »

Automatische Zustandsprüfung und Reparatur von Clustern

Wenn Instances während eines Trainings-Workloads defekt werden, erkennt SageMaker HyperPod automatisch fehlerhafte Knoten und tauscht sie gegen gesunde aus. Um fehlerhafte Hardware zu erkennen, führt SageMaker HyperPod regelmäßig eine Reihe von Zustandsprüfungen für GPU- und Netzwerkintegrität durch. 

Optimierte verteilte Trainingsbibliotheken

SageMaker HyperPod ist mit verteilten SageMaker-Bibliotheken vorkonfiguriert. Mit nur wenigen Codezeilen können Sie Datenparallelität in Ihren Trainingsskripten aktivieren. Mit SageMaker HyperPod können Sie verteilte Trainings schneller durchführen, indem Sie Ihre Modelle und Trainingsdatensätze automatisch auf AWS-GPU-Instances aufteilen.

Weitere Informationen »

Workload-Planung und -Orchestrierung

Die Benutzeroberfläche von SageMaker HyperPod ist mithilfe von Slurm in hohem Maße anpassbar. Sie können alle benötigten Frameworks und Tools auswählen und installieren. Alle Cluster werden mit dem von Ihnen gewählten Instance-Typ und der von Ihnen gewählten Anzahl bereitgestellt und bleiben für Ihre Verwendung bei verschiedenen Workloads erhalten.