Überspringen zum Hauptinhalt

Amazon SageMaker HyperPod

Amazon SageMaker HyperPod

Die Entwicklung generativer KI-Modelle für Tausende von KI-Accelerators skalieren und beschleunigen

Was ist Amazon SageMaker HyperPod?

Amazon SageMaker HyperPod beseitigt die undifferenzierte Schwerstarbeit, die mit der Erstellung von Modellen für generative KI verbunden ist. Die Lösung hilft dabei, Aufgaben zur Modellentwicklung wie Training, Optimieren oder Inferenz über einen Cluster von Hunderten oder Tausenden von KI-Beschleunigern schnell zu skalieren. SageMaker HyperPod ermöglicht zentrale Governance für alle Aufgaben der Modellentwicklung und bietet Ihnen umfassende Transparenz und Kontrolle darüber, wie Aufgaben priorisiert und Rechenressourcen zugewiesen werden. So maximieren Sie die GPU- und AWS-Trainium-Auslastung Ihres Clusters und beschleunigen Innovationen.

Speziell für skalierbares verteiltes Training entwickelt

Mit SageMaker HyperPod können Sie Ihre Trainings-Workload effizient auf alle Beschleuniger verteilen und parallelisieren. SageMaker HyperPod wendet automatisch die besten Trainingskonfigurationen für beliebte öffentlich verfügbare Modelle an, damit Sie schnell eine optimale Leistung erzielen können. Außerdem überwacht die Lösung Ihren Cluster kontinuierlich auf Infrastrukturfehler, repariert das Problem automatisch und stellt Ihre Workloads ohne menschliches Eingreifen wieder her – all dies hilft Ihnen, bis zu 40 % der Trainingszeit einzusparen.

Vorteile von SageMaker HyperPod

Die SageMaker-HyperPod-Innovation für Task-Governance bietet vollständige Transparenz und Kontrolle über die Zuweisung von Rechenressourcen für Entwicklungsaufgaben generativer KI-Modelle wie Training und Inferenz. SageMaker HyperPod verwaltet automatisch Aufgabenwarteschlangen, priorisiert die wichtigsten Aufgaben und sorgt dafür, dass sie termingerecht und budgetkonform abgeschlossen werden. Gleichzeitig werden Rechenressourcen effizienter genutzt, um die Kosten für die Modellentwicklung um bis zu 40 % zu reduzieren.

Mit den SageMaker-HyperPod-Rezepten profitieren Data Scientists und Entwickler aller Erfahrungsstufen von modernster Performance und starten in wenigen Minuten mit dem Training und Fine-Tuning öffentlich zugänglicher generativer KI-Modelle. Darüber hinaus können Sie Basismodelle (FMs) von Amazon Nova, darunter Nova Micro, Nova Lite und Nova Pro, an Ihre geschäftsspezifischen Anwendungsfälle anpassen. Das erfolgt anhand von Rezepten zum Erhöhen der Genauigkeit Ihrer Anwendungen der generativen KI. Gleichzeitig bleiben Ihnen das branchenführende Preis-Leistungs-Verhältnis und die niedrige Latenz von Nova erhalten. SageMaker HyperPod bietet außerdem integrierte Tools für Experimente und Beobachtbarkeit, mit denen Sie die Modellleistung verbessern können.

Mit SageMaker HyperPod können Sie Ihre Modelle und Trainingsdatensätze automatisch auf AWS-Cluster-Instances aufteilen, um Ihre Trainings-Workloads effizient zu skalieren. Es hilft Ihnen, Ihren Trainingsauftrag für die AWS-Netzwerkinfrastruktur und die Clustertopologie zu optimieren. Außerdem wird das Modell-Checkpointing durch die Rezepte optimiert, indem die Häufigkeit des Speicherns von Checkpoints optimiert wird, wodurch ein minimaler Overhead während des Trainings gewährleistet wird.
SageMaker HyperPod bietet eine robuste Umgebung für die Modellentwicklung, indem es Infrastrukturfehler automatisch erkennt, diagnostiziert und behebt. So können Sie monatelang ohne Unterbrechung Workloads für die Modellentwicklung ausführen.

SageMaker HyperPod beschleunigt die Bereitstellung von Open-Weight-Modellen aus SageMaker JumpStart und optimierte Modelle aus Amazon S3 und Amazon FSx. Sie können Aufgaben zur Bereitstellung von Modellen durch automatische Bereitstellung, Verwaltung von Rechenressourcen durch Aufgaben-Governance, Echtzeit-Leistungsüberwachung und verbesserte Beobachtbarkeit optimieren.

Einführung in die Aufgaben-Governance in SageMaker HyperPod

Maximieren Sie die Auslastung und verschaffen Sie sich einen vollständigen Überblick über die Rechenressourcen, während Sie gleichzeitig die Kosten senken.