Introduzione del checkpointing gestito su più livelli per Amazon SageMaker HyperPod
Oggi Amazon Web Services (AWS) rende disponibile al pubblico il checkpointing gestito su più livelli per Amazon SageMaker HyperPod, una nuova funzionalità progettata per ridurre i tempi di ripristino del modello e limitare al minimo le perdite nei progressi di addestramento. Con l'aumento delle dimensioni dell'addestramento dell'IA, cresce la probabilità di guasti infrastrutturali, rendendo fondamentale un checkpointing efficiente. I metodi tradizionali di checkpointing possono essere lenti e richiedere molte risorse, soprattutto per i modelli di grandi dimensioni. Il checkpointing gestito su più livelli di SageMaker HyperPod risponde a questa esigenza utilizzando la memoria CPU per archiviare checkpoint frequenti che consentono un ripristino rapido, salvando periodicamente i dati su Amazon S3 per garantire durabilità a lungo termine. Questo approccio ibrido riduce al minimo la perdita dei progressi di addestramento e diminuisce significativamente il tempo necessario per riprendere le sessioni interrotte.
Il checkpointing gestito su più livelli consente alle organizzazioni di eseguire l'addestramento in modo affidabile e con elevata velocità di throughput su cluster di grandi dimensioni. La soluzione consente ai clienti di configurare la frequenza dei checkpoint e i criteri di conservazione sia per i livelli di archiviazione in memoria che per quelli persistenti. Archiviando frequentemente i dati in memoria, i clienti possono garantire un ripristino immediato e ridurre al minimo i costi di archiviazione. Integrato con il Checkpoint distribuito (DCP) di PyTorch, i clienti possono implementare facilmente il checkpointing con poche righe di codice, beneficiando al contempo delle prestazioni elevate dell'archiviazione in memoria.
Questa funzionalità è attualmente disponibile per i cluster SageMaker HyperPod che utilizzano l'orchestratore EKS. I clienti possono abilitare il checkpointing gestito su più livelli specificando un parametro API durante la creazione o l'aggiornamento di un cluster HyperPod tramite l'API CreateCluster o UpdateCluster. Possono quindi utilizzare la libreria Python sagemaker-checkpointing per implementare il checkpointing gestito su più livelli con modifiche minime agli script di addestramento.
Il checkpointing gestito su più livelli è disponibile in tutte le regioni in cui viene attualmente offerto SageMaker HyperPod. Per ulteriori informazioni, consulta il post del blog e la documentazione.