Addestramento del modello Amazon SageMaker

Addestra ed esegui il fine-tuning dei modelli di ML e IA generativa

Cos'è l'addestramento del modello SageMaker?

L'Addestramento del modello Amazon SageMaker riduce i tempi e i costi necessari per addestrare e ottimizzare i modelli di machine learning (ML) su larga scala senza la necessità di gestire l'infrastruttura. Puoi sfruttare l'infrastruttura di calcolo ML dalle prestazioni più elevate attualmente disponibile e Amazon SageMaker AI può scalare automaticamente l'infrastruttura, da una a migliaia di GPU. Per addestrare più velocemente i modelli di deep learning, SageMaker AI ti aiuta a selezionare e perfezionare i set di dati in tempo reale. Le librerie di addestramento distribuite di SageMaker possono suddividere automaticamente modelli di grandi dimensioni e set di dati di addestramento tra le istanze di GPU AWS oppure è possibile utilizzare librerie di terze parti, come DeepSpeed, Horovod o Megatron. Addestra i modelli di fondazione (FM) per settimane e mesi senza interruzioni monitorando e riparando automaticamente i cluster di formazione.

Vantaggi di un addestramento conveniente

SageMaker AI offre un'ampia scelta di GPU e CPU, nonché acceleratori AWS come AWS Trainium e AWS Inferentia per consentire l'addestramento dei modelli su larga scala. È possibile dimensionare automaticamente l'infrastruttura, da una a migliaia di GPU.
SageMaker AI ti consente di dividere automaticamente i tuoi modelli e i set di dati di addestramento tra le istanze del cluster AWS per aiutarti a scalare in modo efficiente i carichi di lavoro di addestramento. Ti consente di ottimizzare il tuo lavoro di addestramento per l'infrastruttura di rete AWS e la topologia dei cluster. Puoi anche utilizzare ricette ottimizzate per beneficiare di prestazioni all'avanguardia e iniziare rapidamente ad addestrare e a mettere a punto modelli di IA generativa disponibili al pubblico in pochi minuti. Semplifica inoltre i checkpoint dei modelli tramite le ricette ottimizzando la frequenza di salvataggio degli stessi e garantendo un sovraccarico minimo durante l'addestramento.
SageMaker AI può ottimizzare automaticamente il modello regolando migliaia di combinazioni di parametri dell'algoritmo per arrivare alle previsioni più accurate. Utilizza strumenti di debug e profilazione per correggere rapidamente i problemi di prestazioni e ottimizzare le prestazioni di addestramento.
SageMaker AI consente di eseguire esperimenti di ML efficienti per aiutare a monitorare più facilmente le iterazioni dei modelli di ML. Migliora le prestazioni di addestramento dei modelli visualizzando l'architettura del modello per identificare e risolvere i problemi di convergenza.

Modelli di treni su larga scala

Processi di addestramento completamente gestiti

I processi di addestramento di SageMaker offrono un'esperienza utente completamente gestita per l'addestramento di grandi FM distribuiti, rimuovendo il carico indifferenziato associato alla gestione dell'infrastruttura. I processi di addestramento di SageMaker avviano automaticamente un cluster di addestramento resiliente e distribuito, monitorano l'infrastruttura e ripristinano automaticamente i guasti per garantire un'esperienza di addestramento senza interruzioni. Una volta completato l'addestramento, SageMaker arresta il cluster e ti viene fatturato il tempo netto di addestramento. Inoltre, i processi di addestramento di SageMaker offrono la flessibilità necessaria per scegliere il tipo di istanza corretto e più adatto a un carico di lavoro individuale (per esempio, pre-addestrare un modello linguistico di grandi dimensioni (large language model, LLM) in un cluster P5 oppure ottimizzare un LLM open source in istanze p4d) per ottimizzare ulteriormente il budget di addestramento. I processi di addestramento di SageMaker offrono infine un'esperienza utente coerente per tutti i team ML, con vari livelli di competenza tecnica e tipi di carico di lavoro differenti.

Ulteriori informazioni

SageMaker HyperPod

Amazon SageMaker HyperPod è un'infrastruttura appositamente progettata per gestire in modo efficiente i cluster di calcolo per lo sviluppo di modelli di fondazione (FM) scalabili. Consente tecniche avanzate di addestramento dei modelli, controllo dell'infrastruttura, ottimizzazione delle prestazioni e migliore osservabilità dei modelli. SageMaker HyperPod è preconfigurato con le librerie di addestramento distribuite di SageMaker, che consentono di suddividere automaticamente i modelli e i set di dati di addestramento tra le istanze del cluster AWS per permettere di utilizzare in modo efficiente l'infrastruttura di calcolo e di rete del cluster. Consente un ambiente più resiliente grazie alla capacità di rilevare, diagnosticare e ripristinare automaticamente i guasti hardware, permettendo così l'addestramento continuo degli FM per mesi e riducendo il tempo di addestramento fino al 40%.

Ulteriori informazioni

Addestramento distribuito ad alte prestazioni

SageMaker AI velocizza l'esecuzione dell'addestramento distribuito suddividendo automaticamente i modelli e i set di dati di addestramento tra gli acceleratori AWS. Ti consente di ottimizzare il lavoro di addestramento per l'infrastruttura di rete e la topologia dei cluster AWS. Semplifica inoltre i checkpoint dei modelli tramite le ricette ottimizzando la frequenza di salvataggio degli stessi e garantendo un sovraccarico minimo durante l'addestramento. Con le ricette, data scientist e sviluppatori di tutte le competenze beneficiano di prestazioni all'avanguardia mentre iniziano rapidamente ad addestrare e perfezionare i modelli di IA generativa disponibili al pubblico, tra cui Llama 3.1 405B, Mixtral 8x22B e Mistral 7B. Le ricette includono uno stack di addestramento che è stato testato da AWS, eliminando settimane di noioso lavoro testando diverse configurazioni di modelli. Puoi passare da istanze basate su GPU a istanze basate su AWS Trainium con una modifica di ricetta di una riga e abilitare il checkpoint automatico dei modelli per una migliore resilienza di addestramento. Esegui inoltre i carichi di lavoro in produzione sulla funzione di addestramento di SageMaker di tua scelta.

Ulteriori informazioni