- Machine Learning›
- Amazon SageMaker AI›
- Amazon SageMaker HyperPod
Amazon SageMaker HyperPod
Die Entwicklung generativer KI-Modelle für Tausende von KI-Accelerators skalieren und beschleunigen
Was ist Amazon SageMaker HyperPod?
Amazon SageMaker HyperPod beseitigt die undifferenzierte Schwerstarbeit, die mit der Erstellung von Modellen für generative KI verbunden ist. Die Lösung hilft dabei, Aufgaben zur Modellentwicklung wie Training, Optimieren oder Inferenz über einen Cluster von Hunderten oder Tausenden von KI-Beschleunigern schnell zu skalieren. SageMaker HyperPod ermöglicht zentrale Governance für alle Aufgaben der Modellentwicklung und bietet Ihnen umfassende Transparenz und Kontrolle darüber, wie Aufgaben priorisiert und Rechenressourcen zugewiesen werden. So maximieren Sie die GPU- und AWS-Trainium-Auslastung Ihres Clusters und beschleunigen Innovationen.
Speziell für skalierbares verteiltes Training entwickelt
Mit SageMaker HyperPod können Sie Ihre Trainings-Workload effizient auf alle Beschleuniger verteilen und parallelisieren. SageMaker HyperPod wendet automatisch die besten Trainingskonfigurationen für beliebte öffentlich verfügbare Modelle an, damit Sie schnell eine optimale Leistung erzielen können. Außerdem überwacht die Lösung Ihren Cluster kontinuierlich auf Infrastrukturfehler, repariert das Problem automatisch und stellt Ihre Workloads ohne menschliches Eingreifen wieder her – all dies hilft Ihnen, bis zu 40 % der Trainingszeit einzusparen.
Vorteile von SageMaker HyperPod
SageMaker HyperPod bietet eine ausfallsichere Umgebung für die Modellentwicklung, indem es Infrastrukturfehler automatisch erkennt, diagnostiziert und behebt. So können Sie monatelang ohne Unterbrechung Workloads für die Modellentwicklung ausführen. Das überprüfungsfreie Training in SageMaker HyperPod reduziert die Notwendigkeit eines überprüfungsbasierten Neustarts auf Auftragsebene und ermöglicht kontinuierlichen Trainingsfortschritt trotz Ausfällen. Dadurch werden Leerlaufkosten während der Wiederherstellung eingespart und die Markteinführungszeit um Wochen verkürzt.
Die innovative Aufgabensteuerung von SageMaker HyperPod ermöglicht Ihnen volle Transparenz und Kontrolle über die Zuweisung von Rechenressourcen für alle Modellentwicklungsaufgaben, einschließlich Training, Feinabstimmung, Experimente und Inferenz. SageMaker HyperPod verwaltet automatisch Aufgabenwarteschlangen und stellt so sicher, dass die wichtigsten Aufgaben priorisiert und termingerecht und im Rahmen des Budgets abgeschlossen werden. Gleichzeitig werden Rechenressourcen effizienter genutzt, um die Kosten für die Modellentwicklung um bis zu 40 % zu reduzieren. Darüber hinaus bietet SageMaker HyperPod eine fortschrittliche Beobachtbarkeit mit einheitlicher Transparenz über KI-Modellentwicklungsaufgaben und Rechenressourcen hinweg.
Mit SageMaker-HyperPod-Rezepten profitieren Datenwissenschaftler und Entwickler aller Qualifikationsstufen von modernster Leistung und können innerhalb weniger Minuten mit dem Training und der Feinabstimmung öffentlich verfügbarer Basismodelle beginnen. Darüber hinaus können Sie Amazon-Nova-Modelle, darunter Nova Micro, Nova Lite und Nova Pro, mithilfe der Rezepte an Ihre unternehmensspezifischen Anwendungsfälle anpassen. So verbessern Sie die Genauigkeit Ihrer generativen KI-Anwendungen und profitieren gleichzeitig von einer branchenführenden Preis-Leistungs-Bilanz und geringer Latenz. Amazon Nova Forge ist ein einzigartiges Programm, das Unternehmen die einfachste und kostengünstigste Möglichkeit bietet, mit Nova ihre eigenen Frontier-Modelle zu entwickeln.
Mit SageMaker HyperPod können Sie Ihre Modelle und Trainingsdatensätze automatisch auf AWS-Cluster-Instances aufteilen, um Trainings-Workloads effizient zu skalieren. Es hilft Ihnen, Ihren Trainingsauftrag für die AWS-Netzwerkinfrastruktur und die Cluster-Topologie zu optimieren. Außerdem wird das Modell-Überprüfung durch die Rezepte optimiert, indem die Häufigkeit des Speicherns von Checkpoints optimiert wird, wodurch ein minimaler Overhead während des Trainings gewährleistet wird.
SageMaker HyperPod unterstützt die Beschleunigung der Bereitstellung von Open-Weights-Modellen aus SageMaker JumpStart und fein abgestimmten Modellen aus Amazon Simple Storage Service (Amazon S3) und Amazon FSx. Sie können Aufgaben zur Bereitstellung von Modellen durch automatische Bereitstellung, Verwaltung von Rechenressourcen durch Aufgaben-Governance, Echtzeit-Leistungsüberwachung und verbesserte Beobachtbarkeit optimieren.
Einführung des prüfungsfreien Trainings in Amazon SageMaker HyperPod
Automatische Wiederherstellung nach Infrastrukturfehlern innerhalb weniger Minuten, selbst bei Tausenden von KI-Beschleunigern.