Introduzione dell'operatore di addestramento di Amazon SageMaker HyperPod
Oggi rendiamo disponibile al pubblico l'operatore di addestramento di Amazon SageMaker HyperPod, un'estensione Kubernetes creata appositamente per l'addestramento resiliente dei modelli di fondazione su HyperPod.
Amazon SageMaker HyperPod consente ai clienti di accelerare lo sviluppo di modelli IA su centinaia o migliaia di GPU con resilienza integrata, riducendo i tempi di addestramento dei modelli fino al 40%. Con l'aumentare dei cluster di addestramento, il ripristino da eventuali interruzioni dell'addestramento diventa progressivamente più oneroso in termini di tempo. Il ripristino in caso di guasto richiede tradizionalmente un riavvio completo del job su tutti i nodi, anche quando un singolo processo di addestramento fallisce, causando ulteriori tempi di inattività e l'aumento dei costi. Inoltre, l'identificazione e la risoluzione dei problemi di addestramento critici come GPU bloccate, basso throughput di addestramento e instabilità numeriche, richiede normalmente un complesso codice di monitoraggio personalizzato, prolungando ulteriormente le tempistiche di sviluppo e ritardandone la commercializzazione.
L'operatore di addestramento di HyperPod consente ai clienti di migliorare ulteriormente la resilienza dell'addestramento per i carichi di lavoro Kubernetes. Invece di riavviare completamente il job in caso di guasti, l'operatore di addestramento di HyperPod esegue un ripristino chirurgico e riavvia selettivamente solo le risorse di addestramento interessate, velocizzando il recupero dai guasti. Inoltre, introduce una funzionalità personalizzabile di monitoraggio dei job sospesi per favorire la risoluzione di scenari di addestramento problematici, tra cui batch di addestramento bloccati, valori di loss non validi e calo delle prestazioni attraverso semplici configurazioni YAML. Iniziare è semplice: crea un cluster HyperPod, installa il componente aggiuntivo Operatore di addestramento, (facoltativo) definisci policy di ripristino personalizzate per i job sospesi e avvia l'addestramento.
Questa nuova funzionalità è disponibile al pubblico in tutte le regioni AWS in cui è attualmente supportato SageMaker HyperPod.
Per saperne di più, consulta la documentazione.