Amazon SageMaker presenta la funzionalità di scalabilità automatica più rapida per i modelli di IA generativa
Presentiamo una nuova funzionalità di Amazon SageMaker Inference che aiuta i clienti a ridurre il tempo necessario alla scalabilità automatica dei modelli di IA generativa. Ora possono utilizzare metriche inferiori al minuto e ridurre significativamente la latenza di scalabilità complessiva per i modelli di IA. Utilizzando questo miglioramento, i clienti possono migliorare la reattività delle loro applicazioni di IA generativa in base alle fluttuazioni della domanda.
Grazie a questa funzionalità i clienti ottengono due nuove metriche CloudWatch ad alta risoluzione (ConcurrentRequestsPerModel e ConcurrentRequestsPerModelCopy), che consentono una scalabilità automatica più rapida. Queste metriche vengono generate a intervalli di 10 secondi e forniscono una rappresentazione più accurata del carico sull'endpoint monitorando la concorrenza effettiva o il numero di richieste di inferenza in corso elaborate dal modello. I clienti possono creare policy di scalabilità automatica utilizzando queste metriche ad alta risoluzione per scalare i modelli implementati sugli endpoint di SageMaker. Quando vengono raggiunte le soglie definite in queste policy di scalabilità automatica, Amazon SageMaker inizia ad aggiungere nuove istanze o copie del modello in meno di un minuto. In questo modo i clienti possono ottimizzare le prestazioni e l'efficienza dei costi per i loro carichi di lavoro di inferenza su SageMaker.
Questa nuova funzionalità è accessibile su famiglie di istanze di acceleratori (g4dn, g5, g6, p2, p3, p4d, p4de, p5, inf1, inf2, trn1n, trn1) in tutte le regioni AWS in cui è disponibile Amazon SageMaker Inference, ad eccezione della Cina e delle regioni AWS GovCloud (Stati Uniti). Per ulteriori informazioni, consulta il blog dedicato al ML di AWS e consulta la nostra documentazione.