Ankündigung von Managed Tiered Checkpointing für Amazon SageMaker HyperPod

Veröffentlicht am: 8. Sept. 2025

Amazon Web Service (AWS) kündigt heute die allgemeine Verfügbarkeit von Managed Tiered Checkpointing für Amazon SageMaker HyperPod an. Diese neue Funktion wurde entwickelt, um die Modellwiederherstellungszeit zu verkürzen und den Verlust des Trainingsfortschritts zu minimieren. Mit der Ausweitung des KI-Trainings steigt die Wahrscheinlichkeit von Infrastrukturausfällen, so dass ein effizientes Checkpointing entscheidend ist. Traditionelle Checkpointing-Methoden können langsam und ressourcenintensiv sein, insbesondere bei großen Modellen. Das Managed Tiered Checkpointing von SageMaker HyperPod behebt dieses Problem, indem es den CPU-Speicher nutzt, um häufige Checkpoints für eine schnelle Wiederherstellung zu speichern, während die Daten in regelmäßigen Abständen in Amazon S3 persistiert werden, um eine langfristige Haltbarkeit zu gewährleisten. Dieser hybride Ansatz minimiert den Trainingsverlust und verkürzt die Zeit bis zur Wiederaufnahme des Trainings nach einem Ausfall erheblich.

Mit Managed Tiered Checkpointing können Unternehmen zuverlässig und mit hohem Durchsatz auf großen Clustern trainieren. Die Lösung ermöglicht es Kunden, die Häufigkeit von Checkpoints und Aufbewahrungsrichtlinien sowohl für In-Memory- als auch für persistente Speicherebenen zu konfigurieren. Durch die häufige Speicherung im Arbeitsspeicher können Kunden schnell Daten wiederherstellen und gleichzeitig die Speicherkosten minimieren. Durch die Integration mit Distributed Checkpoint (DCP) von PyTorch können Kunden Checkpointing mit nur wenigen Zeilen Code einfach implementieren und gleichzeitig die Leistungsvorteile der In-Memory-Speicherung nutzen.

Diese Funktion ist derzeit für SageMaker HyperPod-Cluster verfügbar, die den EKS-Orchestrator verwenden. Kunden können das Managed Tiered Checkpointing aktivieren, indem sie einen API-Parameter angeben, wenn sie einen HyperPod-Cluster über die CreateCluster- oder UpdateCluster-API erstellen oder aktualisieren. Kunden können dann die Python-Bibliothek sagemaker-checkpointing verwenden, um verwaltetes Tiered Checkpointing mit minimalen Codeänderungen an ihren Trainingsskripten zu implementieren.

Managed Tiered Checkpointing ist in allen Regionen verfügbar, in denen SageMaker HyperPod derzeit verfügbar ist. Weitere Informationen finden Sie im Blogbeitrag und in der Dokumentation.