Amazon SageMaker HyperPod

Reduzieren Sie den Zeitaufwand für das Training von Fundamentmodellen um bis zu 40 % und skalieren Sie effizient über mehr als tausend KI-Beschleuniger

Was ist Amazon SageMaker HyperPod?

Mit Amazon SageMaker HyperPod entfällt die undifferenzierte Schwerstarbeit, die mit der Entwicklung und Optimierung der Machine Learning (ML)-Infrastruktur verbunden ist. Der Service ist mit den verteilten Trainingsbibliotheken von SageMaker vorkonfiguriert, die es Ihnen ermöglichen, Trainings-Workloads automatisch auf über Tausend KI-Beschleunigern aufzuteilen, so dass Workloads für eine verbesserte Modellleistung parallel verarbeitet werden können. SageMaker HyperPod sorgt dafür, dass Ihr FM-Training nicht unterbrochen wird, indem es regelmäßig Checkpoints speichert. Es erkennt automatisch einen Hardwarefehler, wenn dieser auftritt, repariert oder ersetzt die fehlerhafte Instance und setzt das Training ab dem zuletzt gespeicherten Checkpoint fort, sodass Sie diesen Vorgang nicht mehr manuell verwalten müssen. Die robuste Umgebung ermöglicht es Ihnen, Modelle wochen- oder monatelang in einer verteilten Umgebung ohne Unterbrechung zu trainieren und so die Trainingszeit um bis zu 40 % zu reduzieren. SageMaker HyperPod ist außerdem hochgradig anpassbar, sodass Sie FM-Workloads effizient ausführen und skalieren und Rechenkapazität problemlos zwischen verschiedenen Workloads teilen können, von groß angelegten Trainings bis hin zur Inferenz.

Vorteile von SageMaker HyperPod

Amazon SageMaker HyperPod ist mit verteilten Trainingsbibliotheken von Amazon SageMaker vorkonfiguriert, sodass Sie Ihre Modelle und Trainingsdatensätze automatisch auf mehrere AWS-Cluster-Instances aufteilen können, um die Trainingsworkloads effizient zu skalieren.
SageMaker HyperPod unterstützt gängige Cluster-Verwaltungs- und Auftragsplanungssysteme wie Slurm und Amazon Elastic Kubernetes Service (EKS). Es bietet Ihnen ein hervorragendes Entwicklererlebnis, die Möglichkeit, containerisierte Anwendungen zu verwalten, dynamische Cluster-Skalierung und cloudnative Integration, während Sie Ihre FM-Trainings- und Inferenz-Workloads skalieren. Darüber hinaus können Sie Ressourcen nahtlos zwischen Training und Inferenz teilen, um die Ressourcenauslastung weiter zu optimieren.
SageMaker HyperPod ermöglicht eine belastbarere Trainingsumgebung, indem es Fehler automatisch erkennt, diagnostiziert und behebt, so dass Sie FMs über Monate hinweg ohne Unterbrechung trainieren können.