Amazon SageMaker introduce Scale Down to Zero per l'inferenza dell'AI al fine di aiutare i clienti a risparmiare sui costi
Siamo lieti di annunciare Scale Down to Zero, una nuova funzionalità di Amazon SageMaker Inference che consente agli endpoint di scalare fino a raggiungere zero istanze durante i periodi di inattività. Questa funzionalità può ridurre significativamente i costi di esecuzione dell'inferenza utilizzando modelli di intelligenza artificiale, rendendola particolarmente vantaggiosa per le applicazioni con modelli di traffico variabili come chatbot, sistemi di moderazione dei contenuti e altri casi d'uso dell'IA generativa.
Con Scale Down to Zero, i clienti possono configurare i propri endpoint di inferenza SageMaker per scalare automaticamente fino a zero istanze quando non sono in uso, per poi aumentare verticalmente con rapidità alla ripresa del traffico. Questa funzionalità è efficace per scenari con modelli di traffico prevedibili, traffico di inferenza intermittente e ambienti di sviluppo/test. L'implementazione di Scale Down to Zero è semplice con i componenti di SageMaker Inference. I clienti possono configurare le policy di dimensionamento automatico attraverso l'AWS SDK per Python (Boto3), SDK SageMaker Python o l'Interfaccia della linea di comando AWS (AWS CLI). Il processo prevede la configurazione di un endpoint dopo aver abilitato il ridimensionamento delle istanze gestite, la configurazione delle policy di scalabilità e la creazione di allarmi CloudWatch per attivare le procedure di dimensionamento.
Scale Down to Zero è ora disponibile a livello generale in tutte le regioni AWS in cui Amazon SageMaker è supportato. Per saperne di più sull'implementazione di Scale Down to Zero e sull'ottimizzazione dei costi per le implementazioni di IA generativa, visita la nostra pagina della documentazione.