Presentazione dell'addestramento elastico su Amazon SageMaker HyperPod
Amazon SageMaker HyperPod ora supporta l'addestramento elastico, consentendo alle organizzazioni di accelerare l'addestramento dei modelli fondamentali scalando automaticamente i carichi di lavoro di addestramento in base alla disponibilità delle risorse e alle priorità dei carichi di lavoro. Ciò rappresenta un passaggio fondamentale rispetto all'addestramento con un set fisso di risorse, in quanto consente di risparmiare ore di lavoro tecnico dedicate alla riconfigurazione dei job di addestramento in base alla disponibilità delle risorse di calcolo.
Qualsiasi modifica della disponibilità delle risorse di calcolo richiedeva in precedenza l'interruzione manuale dell'addestramento, la riconfigurazione dei parametri di addestramento e il riavvio dei job, un processo che richiede competenze di addestramento distribuito e lascia inattivi gli acceleratori IA costosi durante la riconfigurazione dei job di addestramento. L'addestramento elastico espande automaticamente i job di addestramento per assorbire gli acceleratori AI inattivi e si contrae senza interruzioni quando i carichi di lavoro con priorità più alta richiedono risorse, il tutto senza interrompere completamente l'addestramento.
Eliminando il sovraccarico di riconfigurazione manuale e garantendo l'utilizzo continuo delle risorse di calcolo disponibili, l'addestramento elastico può contribuire a ridurre il tempo dedicato alla gestione dell'infrastruttura, ridurre i costi massimizzando l'utilizzo del cluster e accelerare il time-to-market. L'addestramento può iniziare immediatamente con risorse minime e crescere opportunisticamente man mano che la capacità diventa disponibile.
SageMaker HyperPod è disponibile in tutte le regioni AWS in cui Amazon SageMaker HyperPod è attualmente disponibile. Le organizzazioni possono abilitare l'addestramento elastico senza modifiche al codice utilizzando le ricette HyperPod per modelli pubblicamente disponibili, tra cui Llama e GPT-OSS. Per le architetture di modelli personalizzate, i clienti possono integrare funzionalità di addestramento elastico tramite aggiornamenti di configurazione leggeri e modifiche minime al codice, rendendole accessibili ai team senza richiedere competenze in sistemi distribuiti.
Per iniziare, visita la pagina del prodotto Amazon SageMaker HyperPod e consulta la documentazione sull'addestramento elastico per una guida all'implementazione.