Amazon SageMaker introduce una nuova funzionalità di ottimizzazione dell'inferenza di IA generativa

Inserito il: 9 lug 2024

Oggi Amazon SageMaker ha annunciato la disponibilità generale di una nuova funzionalità di inferenza che offre un throughput fino a 2 volte superiore riducendo i costi fino al 50% per i modelli di IA generativa come i modelli Llama 3, Mistral e Mixtral. Ad esempio, con un modello Llama 3-70B, puoi ottenere fino a ~2400 tokens/sec su un'istanza ml.p5.48xlarge rispetto a ~1200 tokens/sec in precedenza senza alcuna ottimizzazione.

Con questa nuova funzionalità, i clienti possono scegliere dal menu delle più recenti tecniche di ottimizzazione dei modelli, come decodifica speculativa, quantizzazione e compilazione, e applicarle ai loro modelli di IA generativa. SageMaker si occuperà del provisioning dell'hardware necessario per eseguire la ricetta di ottimizzazione, insieme ai framework e alle librerie di deep learning. I clienti ottengono il supporto immediato per una soluzione di decodifica speculativa di SageMaker che è stata testata per le prestazioni su larga scala per vari modelli open source popolari, oppure possono usare la propria soluzione di decodifica speculativa. Per la quantizzazione, SageMaker garantisce la compatibilità e il supporto per tipi di precisione su diverse architetture di modelli. Per la compilazione, l'infrastruttura di runtime di SageMaker garantisce operazioni efficienti di caricamento e memorizzazione nella cache dei modelli ottimizzati per ridurre i tempi di auto-scaling automatico.

I clienti possono sfruttare questa nuova funzionalità di AWS SDK per Python (Boto3), SDK SageMaker Python o Interfaccia della linea di comando AWS (AWS CLI). Questa funzionalità è ora disponibile a tutti nelle regioni: Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Asia Pacifico (Mumbai), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Canada (Centrale), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Parigi), Europa (Stoccolma) e Sud America (San Paolo).

Scopri di più visitando la nostra pagina di documentazione e il nostro blog AWS ML.