Amazon SageMaker introduce nuove funzionalità per accelerare la scalabilità dell'inferenza di IA generativa
Siamo lieti di annunciare due nuove funzionalità di SageMaker Inference che migliorano significativamente l'implementazione e la scalabilità dei modelli di IA generativa: Container Caching e Fast Model Loader. Queste innovazioni risolvono le sfide più importanti legate alla scalabilità efficiente dei modelli linguistici di grandi dimensioni (LLM), consentendo tempi di risposta più rapidi ai picchi di traffico e una scalabilità più conveniente. Riducendo i tempi di caricamento dei modelli e accelerando la scalabilità automatica, queste funzionalità consentono ai clienti di migliorare la reattività delle loro applicazioni di IA generativa in base alle fluttuazioni della domanda, in particolare a vantaggio dei servizi con modelli di traffico dinamici.
Container Caching riduce drasticamente il tempo necessario per scalare i modelli di IA generativa per l'inferenza mediante la prememorizzazione nella cache delle immagini dei container. Ciò elimina la necessità di scaricarli durante il processo di aumento verticale, con conseguente riduzione significativa dei tempi di scalabilità per gli endpoint dei modelli di IA generativa. Fast Model Loader trasmette i pesi dei modelli direttamente da Amazon S3 all'acceleratore, caricando i modelli molto più velocemente rispetto ai metodi tradizionali. Queste funzionalità consentono ai clienti di creare policy di scalabilità automatica più reattive, consentendo a SageMaker di aggiungere nuove istanze o copie del modello rapidamente quando vengono raggiunte le soglie definite, mantenendo così prestazioni ottimali durante i picchi di traffico e allo stesso tempo gestendo i costi in modo efficace.
Queste nuove funzionalità sono accessibili in tutte le regioni AWS in cui è disponibile Amazon SageMaker Inference. Per saperne di più, consulta la nostra documentazione per una guida dettagliata all'implementazione.