Amazon SageMaker HyperPod

Scala e velocizza lo sviluppo di modelli di IA generativa su migliaia di acceleratori di IA

Crea piani di formazione flessibili in HyperPod

Che cos'è SageMaker HyperPod?

Amazon SageMaker HyperPod rimuove i carichi indifferenziati necessari per la creazione di modelli di IA generativa. Aiuta a scalare rapidamente le attività di sviluppo dei modelli come addestramento, fine-tuning o inferenza su un cluster di centinaia o migliaia di acceleratori di IA. SageMaker HyperPod consente la governance centralizzata di tutte le attività di sviluppo dei modelli, offrendo piena visibilità e controllo sulla priorità delle diverse attività e sul modo in cui le risorse di calcolo vengono assegnate a ciascuna attività, aiutando così a massimizzare l'utilizzo di GPU e AWS Trainium del cluster e ad accelerare l'innovazione.

Sviluppato appositamente per l'addestramento distribuito su larga scala

Con SageMaker HyperPod è possibile distribuire e parallelizzare in modo efficiente il carico di lavoro di addestramento su tutti gli acceleratori. SageMaker HyperPod applica automaticamente le migliori configurazioni di addestramento per i modelli più diffusi disponibili al pubblico, per aiutare a raggiungere rapidamente prestazioni ottimali. Inoltre, monitora continuamente il cluster per rilevare eventuali guasti dell'infrastruttura, ripara automaticamente il problema e ripristina i carichi di lavoro senza intervento umano: tutto ciò consente di risparmiare fino al 40% del tempo di addestramento.

Vantaggi di SageMaker HyperPod

SageMaker HyperPod fornisce un ambiente resiliente per lo sviluppo dei modelli grazie alla capacità automatica di rilevare, diagnosticare e ripristinare i guasti infrastrutturali, consentendoti di eseguire continuamente carichi di lavoro di sviluppo dei modelli per mesi senza interruzioni. L'addestramento senza checkpoint su SageMaker HyperPod mitiga la necessità di un riavvio a livello di processo basato su checkpoint e consente un progresso dell’addestramento nonostante i guasti, risparmiando sui costi di elaborazione inattivi durante il ripristino e accelerando il time to market di settimane.

L'innovazione della governance delle attività di SageMaker HyperPod offre piena visibilità e controllo sull'allocazione delle risorse di calcolo tra le attività di sviluppo del modello, tra cui addestramento, fine-tuning, sperimentazione e inferenza. SageMaker HyperPod gestisce automaticamente le code di attività, garantendo l'assegnazione della priorità alle attività più critiche e il completamento delle attività stesse in tempo e nel rispetto del budget, utilizzando al contempo le risorse di calcolo in modo più efficiente per ridurre i costi di sviluppo dei modelli fino al 40%. Inoltre, SageMaker HyperPod offre un'osservabilità avanzata con visibilità unificata tra le attività di sviluppo di modelli IA e le risorse di calcolo.

Con le ricette SageMaker HyperPod, data scientist e sviluppatori con tutti i livelli di competenza possono trarre vantaggio da prestazioni all'avanguardia e iniziare rapidamente ad addestrare ed eseguire il fine-tuning dei modelli di fondazione disponibili al pubblico in pochi minuti. Inoltre, è possibile personalizzare i modelli di Amazon Nova, tra cui Nova Micro, Nova Lite e Nova Pro per i propri casi d'uso aziendali con l'utilizzo di ricette per migliorare la precisione delle applicazioni di IA generativa mantenendo al contempo il rapporto prezzo-prestazioni e bassa latenza leader del settore. Amazon Nova Forge è un programma unico nel suo genere che offre alle organizzazioni il modo più semplice ed economico per creare i propri modelli di frontiera utilizzando Nova.

SageMaker HyperPod ti consente di dividere automaticamente i tuoi modelli e i set di dati di addestramento tra le istanze del cluster AWS per aiutarti a scalare in modo efficiente i carichi di lavoro di addestramento. Ti consente di ottimizzare il job addestramento per l'infrastruttura di rete e la topologia dei cluster AWS. Inoltre, semplifica i checkpoint dei modelli tramite le ricette ottimizzando la frequenza di salvataggio dei checkpoint e garantendo un sovraccarico minimo durante l'addestramento.

SageMaker HyperPod aiuta ad accelerare l'implementazione di modelli a peso aperto di SageMaker JumpStart e di modelli ottimizzati con fine-tuning di Amazon Simple Storage Service (Amazon S3) e Amazon FSx. È possibile semplificare le attività di implementazione dei modelli con il provisioning automatico, la gestione delle risorse di calcolo tramite la governance delle attività, il monitoraggio delle prestazioni in tempo reale e l'osservabilità migliorata.

Ti presentiamo l'addestramento senza checkpoint in Amazon SageMaker HyperPod

Ripristino automatico dai guasti dell'infrastruttura in pochi minuti, anche su migliaia di acceleratori IA.

Ulteriori informazioni

Nozioni di base su SageMaker HyperPod

Documentazione

Inizia consultando passo passo la guida per gli sviluppatori

Consulta la documentazione

Demo

Scopri come accelerare l'addestramento dei modelli con SageMaker HyperPod

Guarda il video

Amazon SageMaker HyperPod

Che cos'è SageMaker HyperPod?

Sviluppato appositamente per l'addestramento distribuito su larga scala

Vantaggi di SageMaker HyperPod

Ti presentiamo l'addestramento senza checkpoint in Amazon SageMaker HyperPod

Nozioni di base su SageMaker HyperPod

Inizia consultando passo passo la guida per gli sviluppatori

Scopri come accelerare l'addestramento dei modelli con SageMaker HyperPod

Scopri

Risorse

Sviluppatori

Assistenza

Amazon SageMaker HyperPod

Che cos'è SageMaker HyperPod?

Sviluppato appositamente per l'addestramento distribuito su larga scala

Vantaggi di SageMaker HyperPod

Elimina le interruzioni con un ambiente resiliente

Massimizza l'utilizzo delle risorse e riduci i costi con governance e osservabilità centralizzate

Ottimizza le prestazioni di personalizzazione del modello con ricette e strumenti

Scala e parallelizza in modo efficiente l'addestramento dei modelli su migliaia di acceleratori di intelligenza artificiale

Accelera l'implementazione dei modelli a peso aperto

Ti presentiamo l'addestramento senza checkpoint in Amazon SageMaker HyperPod

Nozioni di base su SageMaker HyperPod

Inizia consultando passo passo la guida per gli sviluppatori

Scopri come accelerare l'addestramento dei modelli con SageMaker HyperPod

Scopri

Risorse

Sviluppatori

Assistenza