Amazon-EKS-Unterstützung in Amazon SageMaker HyperPod zur Skalierung der Entwicklung von Basismodellen (FM)

Veröffentlicht am: 10. Sept. 2024

Wir freuen uns, die allgemeine Verfügbarkeit der Amazon-EKS-Unterstützung in SageMaker HyperPod bekannt zu geben, die es Kunden ermöglicht, ihre Kubernetes-Workloads auf SageMaker HyperPod auszuführen und zu verwalten, einer speziell für die Entwicklung von Basismodellen (FM) entwickelten Infrastruktur, die die Zeit für das Trainieren von Modellen um bis zu 40 % reduziert.

Viele Kunden verwenden Kubernetes zur Orchestrierung ihrer ML-Workflows aufgrund seiner Portabilität, Skalierbarkeit und seines umfangreichen Ökosystems an Tools. Diese Kunden möchten weiterhin die vertraute Oberfläche von Kubernetes verwenden, wünschen sich aber eine automatisierte Methode zum Umgang mit Hardwareausfällen. Die EKS-Unterstützung in HyperPod kombiniert die Vorteile von SageMaker HyperPod, das selbstreparierende, leistungsstarke Cluster bietet, mit den Containerisierungsfunktionen von Amazon EKS, einem verwalteten Kubernetes-Dienst. Mit diesem Launch können Kunden während der Clustererstellung gründliche Zustandsprüfungen durchführen, um Fehler während des Trainings zu reduzieren. Darüber hinaus ersetzt HyperPod automatisch fehlerhafte Knoten und setzt das Training ab dem letzten Checkpoint sowohl auf der AWS-Trainium- als auch auf der Nvidia-GPU fort. Das funktioniert für Umgebungen mit mehr als tausend Beschleunigern. Kunden haben die Flexibilität, entweder die neue HyperPod CLI oder die von ihnen bevorzugten Tools zu verwenden, um Workloads zu übergeben, zu verwalten und zu überwachen. Die persistente Cluster-Umgebung bietet SSM-Zugriff und die Möglichkeit, den Cluster anzupassen. Von EKS orchestrierte HyperPod-Cluster lassen sich auch in CloudWatch Container Insights integrieren, um sofort einsatzbereite Beobachtbarkeit zu bieten, indem der Zustand der HyperPod-Knoten automatisch erkannt und in kuratierten Dashboards visualisiert wird.

Dieses-Release ist in allen AWS-Regionen allgemein verfügbar, in denen SageMaker HyperPod verfügbar ist, mit Ausnahme von Europa (London).

Weitere Informationen finden Sie hier: Webseite, AWS-News-Blog, Dokumentation, Github-Repository.