Amazon SageMaker rende disponibili al pubblico le istanze P5e e G6e per inferenze di IA
Siamo lieti di annunciare che le istanze ottimizzate per l'inferenza G6e (con GPU NVIDIA L40S Tensor Core) e P5e (con GPU NVIDIA H200 Tensor Core) sono ora disponibili su Amazon SageMaker.
Con 1128 GB di memoria GPU ad elevata larghezza di banda su otto GPU NVIDIA H200, 30 TB di archiviazione NVMe SSD locale, 192 vCPU e 2 TiB di memoria di sistema, le istanze ml.p5e.48xlarge offrono prestazioni eccezionali per carichi di lavoro ad elevata intensità di calcolo per le inferenze di IA, come modelli linguistici di grandi dimensioni con oltre 100 miliardi di parametri, modelli di fondazione multimodali, generazione di dati sintetici e applicazioni complesse basate sull'IA generativa, tra cui risposte a domande, generazione di codice, video e immagini.
Dotate di otto GPU NVIDIA L40s Tensor Core con 48 GB di memoria per GPU e processori AMD EPYC di terza generazione, le istanze ml.g6e possono offrire prestazioni fino a 2,5 volte superiori rispetto alle istanze ml.g5. Ora i clienti possono utilizzare le istanze ml.g6e per eseguire inferenze di IA su modelli linguistici di grandi dimensioni (LLM) con un massimo di 13 miliardi di parametri e su modelli di diffusione per la generazione di immagini, video e audio.
Le istanze ml.p5e e ml.g6e sono ora disponibili su SageMaker nelle regioni AWS Stati Uniti orientali (Ohio) e Stati Uniti occidentali (Oregon). Per iniziare, basta richiedere un aumento del limite tramite AWS Service Quotas. Per informazioni sui costi di queste istanze, vai alla nostra pagina dei prezzi. Per ulteriori informazioni sull'implementazione dei modelli con SageMaker, fai riferimento alla panoramica disponibile qui e alla documentazione disponibile qui. Per ulteriori informazioni su queste istanze, vai alla pagina di prodotto di P5e e di G6e.