Amazon SageMaker HyperPod – Features

Die Entwicklung generativer KI-Modelle für Tausende von KI-Accelerators skalieren und beschleunigen

Aufgabenverwaltung

Amazon SageMaker HyperPod bietet vollständige Transparenz und Kontrolle über die Zuweisung von Rechenressourcen für Aufgaben im Zusammenhang mit der Entwicklung von Modellen für generative KI, wie etwa Training und Inferenz. SageMaker HyperPod verwaltet automatisch Aufgabenwarteschlangen und stellt sicher, dass die wichtigsten Aufgaben priorisiert werden, während Rechenressourcen effizienter genutzt werden, um die Kosten für die Modellentwicklung zu senken. In wenigen Schritten können Administratoren Prioritäten für verschiedene Aufgaben definieren und Limits für die Anzahl der Rechenressourcen festlegen, die jedes Team oder Projekt nutzen kann. Anschließend erstellen Datenwissenschaftler und Entwickler Aufgaben (etwa einen Trainingslauf, ein bestimmtes Modell optimieren oder Vorhersagen zu einem trainierten Modell treffen), die SageMaker HyperPod automatisch ausführt, wobei die vom Administrator festgelegten Rechenressourcenbeschränkungen und Prioritäten eingehalten werden. Wenn eine Aufgabe mit hoher Priorität sofort erledigt werden muss, aber alle Rechenressourcen in Gebrauch sind, gibt SageMaker HyperPod automatisch Rechenressourcen von Aufgaben mit niedrigerer Priorität frei. Darüber hinaus nutzt SageMaker HyperPod automatisch ungenutzte Rechenressourcen, um wartende Aufgaben zu beschleunigen. SageMaker HyperPod bietet ein Dashboard, über das Administratoren Aufgaben überwachen und prüfen können, die ausgeführt werden oder auf Rechenressourcen warten.

Weitere Informationen

Flexible Trainingspläne

Um Ihre Trainingszeitpläne und Budgets einzuhalten, unterstützt Sie SageMaker HyperPod bei der Erstellung der kosteneffizientesten Trainingspläne, die Rechenressourcen aus mehreren Blöcken der Rechenkapazität nutzen. Sobald Sie die Trainingspläne genehmigt haben, stellt SageMaker HyperPod automatisch die Infrastruktur bereit und führt die Trainingsaufträge auf diesen Rechenressourcen aus, ohne dass ein manueller Eingriff erforderlich ist. Sie sparen sich wochenlange Arbeit bei der Verwaltung des Trainingsprozesses, um Aufträge an die Rechenverfügbarkeit anzupassen.

Weitere Informationen

 

Optimierte Rezepte

Die SageMaker HyperPod-Rezepte helfen Datenwissenschaftlern und Entwicklern aller Qualifikationsstufen, von der neuesten Technologie zu profitieren und gleichzeitig schnell mit dem Training und Optimieren öffentlich verfügbarer Modelle für generative KI zu beginnen, darunter Llama 3.1 405B, Mixtral 8x22B und Mistral 7B. Jedes Rezept enthält einen von AWS getesteten Trainings-Stack, wodurch wochenlange mühsame Tests verschiedener Modellkonfigurationen entfallen. Sie können mit einer einzeiligen Rezeptänderung zwischen GPU-basierten und AWS Trainium-basierten Instances wechseln, automatisierte Modell-Checkpoints für eine verbesserte Trainingsresilienz aktivieren und Workloads in der Produktion auf SageMaker HyperPod ausführen.

 

Hochleistungsfähiges verteiltes Training

SageMaker HyperPod beschleunigt das verteilte Training, indem es Ihre Modelle und Trainingsdatensätze automatisch auf AWS-Beschleuniger verteilt. Es hilft Ihnen, Ihren Trainingsauftrag für die AWS-Netzwerkinfrastruktur und die Clustertopologie zu optimieren und das Modell-Checkpointing zu rationalisieren, indem es die Häufigkeit des Speicherns von Checkpoints optimiert und so einen minimalen Overhead während des Trainings gewährleistet.

Fortgeschrittene Tools für Experimente und Beobachtbarkeit

Sie können integrierte KI-Tools in SageMaker HyperPod verwenden, um die Modellleistung zu verbessern. Beispielsweise können Sie mit dem verwalteten TensorBoard in SageMaker Entwicklungszeit sparen, indem Sie die Modellarchitektur visualisieren, um Konvergenzprobleme zu identifizieren und zu beheben. Die Integration mit Amazon CloudWatch Container Insights bietet tiefere Einblicke in die Leistung, den Zustand und die Nutzung von Clustern. Managed MLflow in SageMaker hilft Ihnen, Experimente effizient zu verwalten und zu skalieren.

Workload-Planung und -Orchestrierung

Die Benutzeroberfläche von SageMaker HyperPod ist mithilfe von Slurm oder Amazon Elastic Kubernetes Service (Amazon EKS) in hohem Maße anpassbar. Sie können alle benötigten Frameworks und Tools auswählen und installieren. Alle Cluster werden mit dem von Ihnen gewählten Instance-Typ und der von Ihnen gewählten Anzahl bereitgestellt und bleiben für Ihre Verwendung bei verschiedenen Workloads erhalten. Mit der Amazon-EKS-Unterstützung in SageMaker HyperPod können Sie Cluster mit einem konsistenten Kubernetes-basierten Administratorerlebnis verwalten und betreiben. Führen Sie Workloads effizient aus und skalieren Sie sie – vom Training über die Optimierung bis hin zur Inferenz. Sie können auch Rechenkapazität gemeinsam nutzen und für verschiedene Arten von Workloads zwischen Slurm und Amazon EKS wechseln.

Automatische Zustandsprüfung und Reparatur von Clustern

Wenn während eines Workloads zur Modellentwicklung Instances fehlerhaft werden, erkennt SageMaker HyperPod Infrastrukturprobleme automatisch und behebt sie. Um fehlerhafte Hardware zu erkennen, führt SageMaker HyperPod regelmäßig eine Reihe von Zustandsprüfungen für die Integrität von Beschleunigern und Netzwerken durch.