Introduzione del checkpointing gestito su più livelli per Amazon SageMaker HyperPod

Inserito il: 8 set 2025

Oggi Amazon Web Services (AWS) rende disponibile al pubblico il checkpointing gestito su più livelli per Amazon SageMaker HyperPod, una nuova funzionalità progettata per ridurre i tempi di ripristino del modello e limitare al minimo le perdite nei progressi di addestramento. Con l'aumento delle dimensioni dell'addestramento dell'IA, cresce la probabilità di guasti infrastrutturali, rendendo fondamentale un checkpointing efficiente. I metodi tradizionali di checkpointing possono essere lenti e richiedere molte risorse, soprattutto per i modelli di grandi dimensioni. Il checkpointing gestito su più livelli di SageMaker HyperPod risponde a questa esigenza utilizzando la memoria CPU per archiviare checkpoint frequenti che consentono un ripristino rapido, salvando periodicamente i dati su Amazon S3 per garantire durabilità a lungo termine. Questo approccio ibrido riduce al minimo la perdita dei progressi di addestramento e diminuisce significativamente il tempo necessario per riprendere le sessioni interrotte.

Il checkpointing gestito su più livelli consente alle organizzazioni di eseguire l'addestramento in modo affidabile e con elevata velocità di throughput su cluster di grandi dimensioni. La soluzione consente ai clienti di configurare la frequenza dei checkpoint e i criteri di conservazione sia per i livelli di archiviazione in memoria che per quelli persistenti. Archiviando frequentemente i dati in memoria, i clienti possono garantire un ripristino immediato e ridurre al minimo i costi di archiviazione. Integrato con il Checkpoint distribuito (DCP) di PyTorch, i clienti possono implementare facilmente il checkpointing con poche righe di codice, beneficiando al contempo delle prestazioni elevate dell'archiviazione in memoria.

Questa funzionalità è attualmente disponibile per i cluster SageMaker HyperPod che utilizzano l'orchestratore EKS. I clienti possono abilitare il checkpointing gestito su più livelli specificando un parametro API durante la creazione o l'aggiornamento di un cluster HyperPod tramite l'API CreateCluster o UpdateCluster. Possono quindi utilizzare la libreria Python sagemaker-checkpointing per implementare il checkpointing gestito su più livelli con modifiche minime agli script di addestramento.

Il checkpointing gestito su più livelli è disponibile in tutte le regioni in cui viene attualmente offerto SageMaker HyperPod. Per ulteriori informazioni, consulta il post del blog e la documentazione.