Annuncio del routing di sessione persistente per Amazon SageMaker Inference
Oggi annunciamo la disponibilità del routing di sessione persistente su Amazon SageMaker Inference, che aiuta i clienti a migliorare le prestazioni e l'esperienza utente delle loro applicazioni di IA generativa sfruttando le informazioni precedentemente elaborate. Amazon SageMaker semplifica l'implementazione di modelli di ML, inclusi i modelli di fondazione (FM) per fare richieste di inferenza al miglior rapporto prezzo/prestazioni per qualsiasi caso d'uso.
Abilitando le sessioni persistenti, tutte le richieste per la stessa sessione verranno indirizzate alla stessa istanza, consentendo all'applicazione ML di riutilizzare le informazioni elaborate in precedenza per ridurre la latenza e migliorare l'esperienza utente. Ciò è particolarmente utile quando i clienti desiderano utilizzare payload di dati di grandi dimensioni o cercano esperienze interattive senza interruzioni. Sfruttando le loro precedenti richieste di inferenza, i clienti possono ora sfruttare questa funzionalità per creare applicazioni di IA innovative con riconoscimento dello stato su SageMaker. A tale scopo, i clienti dovranno creare un ID di sessione con la loro prima richiesta e quindi utilizzare tale ID di sessione per indicare che SageMaker deve indirizzare tutte le richieste successive alla stessa istanza. Le sessioni possono anche essere eliminate una volta terminate per liberare risorse per nuove sessioni.
Questa funzionalità è disponibile in tutte le regioni che offrono SageMaker. Maggiori informazioni sull'implementazione dei modelli su SageMaker sono disponibili qui. Per saperne di più su questa funzionalità consulta la nostra documentazione.