Cos'è l'addestramento del modello SageMaker?
L'Addestramento del modello Amazon SageMaker riduce i tempi e i costi necessari per addestrare e ottimizzare i modelli di machine learning (ML) su larga scala senza la necessità di gestire l'infrastruttura. Puoi sfruttare l'infrastruttura di calcolo ML dalle prestazioni più elevate attualmente disponibile e Amazon SageMaker AI può scalare automaticamente l'infrastruttura, da una a migliaia di GPU. Per addestrare più velocemente i modelli di deep learning, SageMaker AI ti aiuta a selezionare e perfezionare i set di dati in tempo reale. Le librerie di addestramento distribuite di SageMaker possono suddividere automaticamente modelli di grandi dimensioni e set di dati di addestramento tra le istanze di GPU AWS oppure è possibile utilizzare librerie di terze parti, come DeepSpeed, Horovod o Megatron. Addestra i modelli di fondazione (FM) per settimane e mesi senza interruzioni monitorando e riparando automaticamente i cluster di formazione.
Vantaggi di un addestramento conveniente
Modelli di treni su larga scala
Processi di addestramento completamente gestiti
I processi di addestramento di SageMaker offrono un'esperienza utente completamente gestita per l'addestramento di grandi FM distribuiti, rimuovendo il carico indifferenziato associato alla gestione dell'infrastruttura. I processi di addestramento di SageMaker avviano automaticamente un cluster di addestramento resiliente e distribuito, monitorano l'infrastruttura e ripristinano automaticamente i guasti per garantire un'esperienza di addestramento senza interruzioni. Una volta completato l'addestramento, SageMaker arresta il cluster e ti viene fatturato il tempo netto di addestramento. Inoltre, i processi di addestramento di SageMaker offrono la flessibilità necessaria per scegliere il tipo di istanza corretto e più adatto a un carico di lavoro individuale (per esempio, pre-addestrare un modello linguistico di grandi dimensioni (large language model, LLM) in un cluster P5 oppure ottimizzare un LLM open source in istanze p4d) per ottimizzare ulteriormente il budget di addestramento. I processi di addestramento di SageMaker offrono infine un'esperienza utente coerente per tutti i team ML, con vari livelli di competenza tecnica e tipi di carico di lavoro differenti.
SageMaker HyperPod
Amazon SageMaker HyperPod è un'infrastruttura appositamente progettata per gestire in modo efficiente i cluster di calcolo per lo sviluppo di modelli di fondazione (FM) scalabili. Consente tecniche avanzate di addestramento dei modelli, controllo dell'infrastruttura, ottimizzazione delle prestazioni e migliore osservabilità dei modelli. SageMaker HyperPod è preconfigurato con le librerie di addestramento distribuite di SageMaker, che consentono di suddividere automaticamente i modelli e i set di dati di addestramento tra le istanze del cluster AWS per permettere di utilizzare in modo efficiente l'infrastruttura di calcolo e di rete del cluster. Consente un ambiente più resiliente grazie alla capacità di rilevare, diagnosticare e ripristinare automaticamente i guasti hardware, permettendo così l'addestramento continuo degli FM per mesi e riducendo il tempo di addestramento fino al 40%.
Addestramento distribuito ad alte prestazioni
SageMaker AI velocizza l'esecuzione dell'addestramento distribuito suddividendo automaticamente i modelli e i set di dati di addestramento tra gli acceleratori AWS. Ti consente di ottimizzare il lavoro di addestramento per l'infrastruttura di rete e la topologia dei cluster AWS. Semplifica inoltre i checkpoint dei modelli tramite le ricette ottimizzando la frequenza di salvataggio degli stessi e garantendo un sovraccarico minimo durante l'addestramento. Con le ricette, data scientist e sviluppatori di tutte le competenze beneficiano di prestazioni all'avanguardia mentre iniziano rapidamente ad addestrare e perfezionare i modelli di IA generativa disponibili al pubblico, tra cui Llama 3.1 405B, Mixtral 8x22B e Mistral 7B. Le ricette includono uno stack di addestramento che è stato testato da AWS, eliminando settimane di noioso lavoro testando diverse configurazioni di modelli. Puoi passare da istanze basate su GPU a istanze basate su AWS Trainium con una modifica di ricetta di una riga e abilitare il checkpoint automatico dei modelli per una migliore resilienza di addestramento. Esegui inoltre i carichi di lavoro in produzione sulla funzione di addestramento di SageMaker di tua scelta.