Wir stellen vor: Flexibles Training auf Amazon SageMaker HyperPod

Veröffentlicht am: 3. Dez. 2025

Amazon SageMaker HyperPod unterstützt jetzt flexibles Training, sodass Unternehmen das Training zum Basismodell beschleunigen können, indem sie die Trainingsworkloads automatisch auf der Grundlage der Ressourcenverfügbarkeit und der Workload-Prioritäten skalieren. Dies stellt eine grundlegende Umstellung von Trainings mit einem festen Satz von Ressourcen dar, da dadurch Stunden an Entwicklungszeit eingespart werden, die für die Neukonfiguration von Trainingsjobs auf der Grundlage der Rechenverfügbarkeit aufgewendet werden muss.

Jede Änderung der Rechenverfügbarkeit erforderte bisher das manuelle Anhalten des Trainings, die Neukonfiguration der Trainingsparameter und das Neustarten von Jobs – ein Prozess, der verteilte Trainingskompetenz erfordert und teure KI-Beschleuniger während der Neukonfiguration der Trainingsjobs ungenutzt lässt. Flexibles Training erweitert automatisch die Trainingsjobs, um ungenutzte KI-Beschleuniger zu absorbieren, und schrumpft nahtlos, wenn Workloads mit höherer Priorität Ressourcen benötigen – und das alles, ohne das Training komplett zu unterbrechen.

Flexibles Training vermeidet den Aufwand für manuelle Neukonfigurationen und gewährleistet die kontinuierliche Nutzung der verfügbaren Rechenleistung. So können Sie Zeit sparen, die Sie zuvor für das Infrastrukturmanagement aufgewendet haben, die Kosten senken, indem die Cluster-Auslastung maximiert wird, und die Markteinführung beschleunigen. Das Training kann sofort mit minimalen Ressourcen beginnen und opportunistisch erweitert werden, sobald Kapazitäten verfügbar werden.

SageMaker HyperPod ist in allen Regionen verfügbar, in denen Amazon SageMaker HyperPod derzeit verfügbar ist. Unternehmen können mithilfe von HyperPod-Rezepten für öffentlich verfügbare Modelle wie Llama und GPT OSS flexibles Training ohne Codeänderungen ermöglichen. Für benutzerdefinierte Modellarchitekturen können Kunden flexible Trainingsfunktionen durch einfache Konfigurationsupdates und minimale Codeänderungen integrieren, sodass Teams darauf zugreifen können, ohne dass Fachwissen über verteilte Systeme erforderlich ist.

Besuchen Sie zunächst die Amazon SageMaker HyperPod-Produktseite. In der Dokumentation zu flexiblem Training finden Sie Anleitungen zur Implementierung.