Veröffentlicht am: Nov 29, 2023
Heute kündigt AWS die allgemeine Verfügbarkeit von Amazon SageMaker HyperPod an, das die Trainingszeit von Basismodellen (FMs) um bis zu 40 % reduziert, indem es eine speziell entwickelte Infrastruktur für verteiltes Training in großem Maßstab bereitstellt.
Viele Unternehmen möchten ihre eigenen FMs mithilfe von GPUs (Graphics Processing Units) und Trainium-basierten Instances zu geringen Kosten trainieren. Das Datenvolumen, die Größe der Modelle und der mit dem Training von FMs einhergehende Zeitaufwand haben jedoch das Modelltraining jedoch deutlich komplexer gemacht. Kunden müssen ihr FM-Training häufig auf Hunderte oder Tausende Beschleuniger aufteilen. Anschließend führen sie wochen- oder monatelang parallel Billionen Datenberechnungen durch, was zeitaufwändig ist und spezielles ML-Fachwissen erfordert. Die Anzahl der Beschleuniger und die Trainingszeit nehmen im Vergleich zu für Trainingsaufgaben spezifischen Modellen erheblich zu, sodass die Wahrscheinlichkeit seltener, kleiner Fehler (wie der Ausfall eines einzelnen Beschleunigers) zunimmt.
Mit SageMaker HyperPod entfällt die Schwerstarbeit, die mit dem Aufbau und der Optimierung der ML-Infrastruktur für das Training von FMs verbunden ist. SageMaker HyperPod ist mit den verteilten Trainingsbibliotheken von SageMaker vorkonfiguriert, sodass Kunden Trainingsworkloads automatisch auf Tausende Beschleuniger aufteilen können, damit Workloads parallel verarbeitet werden können, um so die Modellleistung zu verbessern. SageMaker HyperPod stellt außerdem sicher, dass Kunden das FM-Training ohne Unterbrechung fortsetzen können, indem regelmäßig Checkpoints gespeichert werden. Wenn während des Trainings ein Hardwarefehler auftritt, erkennt SageMaker HyperPod den Ausfall automatisch, repariert oder ersetzt die fehlerhafte Instance und setzt das Training am zuletzt gespeicherten Checkpoint fort. Dadurch müssen die Kunden diesen Prozess nicht manuell verwalten und können wochen- oder monatelang in einer verteilten Umgebung ohne Unterbrechung trainieren.
SageMaker HyperPod ist allgemein verfügbar und Sie können es in den folgenden AWS-Regionen verwenden: USA Ost (Ohio), USA Ost (Nord-Virginia), USA West (Oregon), Asien-Pazifik (Seoul), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Tokio), Europa (Frankfurt), Europa (Irland) und Europa (Stockholm).
Weitere Informationen finden Sie in der folgenden Ressourcenliste: