Passa al contenuto principale

Amazon SageMaker HyperPod

Amazon SageMaker HyperPod

Scala e velocizza lo sviluppo di modelli di IA generativa su migliaia di acceleratori di IA

Che cos'è SageMaker HyperPod?

Amazon SageMaker HyperPod rimuove i carichi indifferenziati necessari per la creazione di modelli di IA generativa. Aiuta a scalare rapidamente le attività di sviluppo dei modelli come addestramento, fine-tuning o inferenza su un cluster di centinaia o migliaia di acceleratori di IA. SageMaker HyperPod consente la governance centralizzata di tutte le attività di sviluppo dei modelli, offrendo piena visibilità e controllo sulla priorità delle diverse attività e sul modo in cui le risorse di calcolo vengono assegnate a ciascuna attività, aiutando così a massimizzare l'utilizzo di GPU e AWS Trainium del cluster e ad accelerare l'innovazione.

Sviluppato appositamente per l'addestramento distribuito su larga scala

Con SageMaker HyperPod è possibile distribuire e parallelizzare in modo efficiente il carico di lavoro di addestramento su tutti gli acceleratori. SageMaker HyperPod applica automaticamente le migliori configurazioni di addestramento per i modelli più diffusi disponibili al pubblico, per aiutare a raggiungere rapidamente prestazioni ottimali. Inoltre, monitora continuamente il cluster per rilevare eventuali guasti dell'infrastruttura, ripara automaticamente il problema e ripristina i carichi di lavoro senza intervento umano: tutto ciò consente di risparmiare fino al 40% del tempo di addestramento.

Vantaggi di SageMaker HyperPod

SageMaker HyperPod fornisce un ambiente resiliente per lo sviluppo dei modelli grazie alla capacità automatica di rilevare, diagnosticare e ripristinare i guasti infrastrutturali, consentendoti di eseguire continuamente carichi di lavoro di sviluppo dei modelli per mesi senza interruzioni. L'addestramento senza checkpoint su SageMaker HyperPod mitiga la necessità di un riavvio a livello di processo basato su checkpoint e consente un progresso dell’addestramento nonostante i guasti, risparmiando sui costi di elaborazione inattivi durante il ripristino e accelerando il time to market di settimane.

L'innovazione della governance delle attività di SageMaker HyperPod offre piena visibilità e controllo sull'allocazione delle risorse di calcolo tra le attività di sviluppo del modello, tra cui addestramento, fine-tuning, sperimentazione e inferenza. SageMaker HyperPod gestisce automaticamente le code di attività, garantendo l'assegnazione della priorità alle attività più critiche e il completamento delle attività stesse in tempo e nel rispetto del budget, utilizzando al contempo le risorse di calcolo in modo più efficiente per ridurre i costi di sviluppo dei modelli fino al 40%. Inoltre, SageMaker HyperPod offre un'osservabilità avanzata con visibilità unificata tra le attività di sviluppo di modelli IA e le risorse di calcolo.

Con le ricette SageMaker HyperPod, data scientist e sviluppatori con tutti i livelli di competenza possono trarre vantaggio da prestazioni all'avanguardia e iniziare rapidamente ad addestrare ed eseguire il fine-tuning dei modelli di fondazione disponibili al pubblico in pochi minuti. Inoltre, è possibile personalizzare i modelli di Amazon Nova, tra cui Nova Micro, Nova Lite e Nova Pro per i propri casi d'uso aziendali con l'utilizzo di ricette per migliorare la precisione delle applicazioni di IA generativa mantenendo al contempo il rapporto prezzo-prestazioni e bassa latenza leader del settore. Amazon Nova Forge è un programma unico nel suo genere che offre alle organizzazioni il modo più semplice ed economico per creare i propri modelli di frontiera utilizzando Nova.

SageMaker HyperPod ti consente di dividere automaticamente i tuoi modelli e i set di dati di addestramento tra le istanze del cluster AWS per aiutarti a scalare in modo efficiente i carichi di lavoro di addestramento. Ti consente di ottimizzare il job addestramento per l'infrastruttura di rete e la topologia dei cluster AWS. Inoltre, semplifica i checkpoint dei modelli tramite le ricette ottimizzando la frequenza di salvataggio dei checkpoint e garantendo un sovraccarico minimo durante l'addestramento.

SageMaker HyperPod aiuta ad accelerare l'implementazione di modelli a peso aperto di SageMaker JumpStart e di modelli ottimizzati con fine-tuning di Amazon Simple Storage Service (Amazon S3) e Amazon FSx. È possibile semplificare le attività di implementazione dei modelli con il provisioning automatico, la gestione delle risorse di calcolo tramite la governance delle attività, il monitoraggio delle prestazioni in tempo reale e l'osservabilità migliorata.

Ti presentiamo l'addestramento senza checkpoint in Amazon SageMaker HyperPod

Ripristino automatico dai guasti dell'infrastruttura in pochi minuti, anche su migliaia di acceleratori IA.