Amazon SageMaker HyperPod unterstützt jetzt Training ohne Kontrollpunkte
Amazon SageMaker HyperPod unterstützt jetzt Training ohne Kontrollpunkte, eine neue grundlegende Modelltrainingsfunktion, die die Notwendigkeit eines Kontrollpunkt-basierten Neustarts auf Jobebene zur Fehlerbehebung reduziert. Training ohne Kontrollpunkte hält trotz Misserfolgen den Trainingsfortschritt aufrecht und reduziert so die Wiederherstellungszeit von Stunden auf Minuten. Dies stellt eine grundlegende Veränderung gegenüber der herkömmlichen Kontrollpunkt-basierten Wiederherstellung dar, bei der bei Ausfällen der gesamte Trainingscluster unterbrochen, Probleme manuell diagnostiziert und von gespeicherten Kontrollpunkten aus wiederhergestellt werden müssen. Dieser Prozess kann teure KI-Beschleuniger stundenlang ungenutzt lassen, was für Ihr Unternehmen zu vergeudeten Rechenkapazitäten führen kann.
Training ohne Kontrollpunkte transformiert dieses Paradigma, indem der Modelltrainingszustand im gesamten verteilten Cluster erhalten bleibt, fehlerhafte Trainingsknoten automatisch im laufenden Betrieb ausgetauscht werden und Peer-to-Peer-Zustandstransfer von gesunden Beschleunigern zur Wiederherstellung nach einem Ausfall verwendet wird. Durch die Minimierung von Kontrollpunkt-Abhängigkeiten während der Wiederherstellung kann Training ohne Kontrollpunkte Ihrem Unternehmen helfen, Kosten für ungenutzte KI-Beschleuniger einzusparen und die Zeit zu verkürzen. Selbst in größeren Maßstäben ermöglicht Training ohne Kontrollpunkte auf Amazon SageMaker HyperPod einen Training-Goodput von über 95 % bei Clustergrößen mit Tausenden von KI-Beschleunigern.
Training ohne Kontrollpunkte auf SageMaker HyperPod ist in allen AWS-Regionen verfügbar, in denen Amazon SageMaker HyperPod derzeit verfügbar ist. Mithilfe von HyperPod-Rezepten für beliebte, öffentlich verfügbare Modelle wie Llama und GPT OSS können Sie Training ohne Kontrollpunkte ohne Codeänderungen ermöglichen. Für benutzerdefinierte Modellarchitekturen können Sie Komponenten von Training ohne Kontrollpunkte mit minimalen Änderungen für Pytorch-basierte Workflows integrieren, sodass sie Ihren Teams unabhängig von ihrer Erfahrung mit verteilten Trainings zugänglich sind.
Besuchen Sie zunächst die Amazon SageMaker HyperPod-Produktseite. Anleitungen zur Implementierung finden Sie auf der GitHub-Seite für Training ohne Kontrollpunkte.