Passa al contenuto principale

Amazon SageMaker HyperPod

Amazon SageMaker HyperPod

Scala e velocizza lo sviluppo di modelli di IA generativa su migliaia di acceleratori di IA

Che cos'è SageMaker HyperPod?

Amazon SageMaker HyperPod rimuove i carichi indifferenziati necessari per la creazione di modelli di IA generativa. Aiuta a scalare rapidamente le attività di sviluppo dei modelli come addestramento, fine-tuning o inferenza su un cluster di centinaia o migliaia di acceleratori di IA. SageMaker HyperPod consente la governance centralizzata di tutte le attività di sviluppo dei modelli, offrendo piena visibilità e controllo sulla priorità delle diverse attività e sul modo in cui le risorse di calcolo vengono assegnate a ciascuna attività, aiutando così a massimizzare l'utilizzo di GPU e AWS Trainium del cluster e ad accelerare l'innovazione.

Sviluppato appositamente per l'addestramento distribuito su larga scala

Con SageMaker HyperPod è possibile distribuire e parallelizzare in modo efficiente il carico di lavoro di addestramento su tutti gli acceleratori. SageMaker HyperPod applica automaticamente le migliori configurazioni di addestramento per i modelli più diffusi disponibili al pubblico, per aiutare a raggiungere rapidamente prestazioni ottimali. Inoltre, monitora continuamente il cluster per rilevare eventuali guasti dell'infrastruttura, ripara automaticamente il problema e ripristina i carichi di lavoro senza intervento umano: tutto ciò consente di risparmiare fino al 40% del tempo di addestramento.

Vantaggi di SageMaker HyperPod

L'innovazione della governance delle attività di SageMaker HyperPod offre visibilità e controllo completi sull'allocazione delle risorse di calcolo nelle attività di sviluppo dei modelli di IA generativa, come addestramento e inferenza. SageMaker HyperPod gestisce automaticamente le code di attività, garantendo l'assegnazione della priorità alle attività più critiche e il completamento delle attività stesse in tempo e nel rispetto del budget, utilizzando al contempo le risorse di calcolo in modo più efficiente per ridurre i costi di sviluppo dei modelli fino al 40%.

Con le ricette SageMaker HyperPod, data scientist e sviluppatori di tutte le competenze possono trarre vantaggio da prestazioni all'avanguardia per iniziare ad addestrare ed eseguire il fine-tuning dei modelli di IA generativa disponibili al pubblico in pochi minuti. Inoltre, è possibile personalizzare i modelli di fondazione (FM) di Amazon Nova, tra cui Nova Micro, Nova Lite e Nova Pro per i propri casi d'uso aziendali con l'utilizzo di ricette per migliorare la precisione delle applicazioni di IA generativa e mantenendo al contempo il rapporto prezzo-prestazioni e la latenza ridotta leader del settore di Nova. SageMaker HyperPod offre anche strumenti di sperimentazione e osservabilità integrati che consentono di migliorare le prestazioni del modello.

SageMaker HyperPod ti consente di dividere automaticamente i tuoi modelli e i set di dati di addestramento tra le istanze del cluster AWS per aiutarti a scalare in modo efficiente i carichi di lavoro di addestramento. Ti consente di ottimizzare il tuo lavoro di addestramento per l'infrastruttura di rete AWS e la topologia dei cluster. Inoltre, semplifica i checkpoint dei modelli tramite le ricette ottimizzando la frequenza di salvataggio dei checkpoint e garantendo un sovraccarico minimo durante l'addestramento.
SageMaker HyperPod fornisce un ambiente di addestramento resiliente per lo sviluppo dei modelli grazie alla capacità automatica di rilevare, diagnosticare e ripristinare automaticamente i guasti infrastrutturali, consentendoti di eseguire continuamente carichi di lavoro di sviluppo dei modelli per mesi senza interruzioni.

SageMaker HyperPod aiuta ad accelerare l'implementazione di modelli a peso aperto di SageMaker JumpStart e di modelli ottimizzati con fine-tuning di Amazon S3 e Amazon FSx. È possibile semplificare le attività di implementazione dei modelli con il provisioning automatico, la gestione delle risorse di calcolo tramite la governance delle attività, il monitoraggio delle prestazioni in tempo reale e l'osservabilità migliorata.

Presentazione della governance delle attività in SageMaker HyperPod

Massimizza l'utilizzo e ottieni la visibilità completa delle risorse di calcolo, riducendo al contempo i costi.