L'inferenza di Amazon SageMaker AI ora supporta lo streaming bidirezionale

Inserito il: 25 nov 2025

L'inferenza di Amazon SageMaker AI ora supporta lo streaming bidirezionale per la trascrizione da voce a testo in tempo reale, consentendo l'elaborazione vocale continua anziché l'input in batch. Ora i modelli possono ricevere flussi audio e restituire trascrizioni parziali in modo simultaneo durante il parlato degli utenti, consentendo di creare agenti vocali in grado di elaborare il parlato con latenza minima.

Durante lo sviluppo di agenti vocali IA, i clienti hanno bisogno della trascrizione del parlato in tempo reale per ridurre al minimo i ritardi tra il parlato dell'utente e le risposte dell'agente. I data scientist e gli ingegneri ML non dispongono di un'infrastruttura gestita per lo streaming bidirezionale, rendendo necessaria la creazione di implementazioni WebSocket personalizzate e la gestione dei protocolli di streaming. I team impiegano settimane nello sviluppo e nella manutenzione di tale infrastruttura invece di concentrarsi sull'accuratezza del modello e sulle capacità degli agenti. Lo streaming bidirezionale nell'inferenza di Amazon SageMaker AI consente di distribuire modelli da voce a testo invocando l'endpoint tramite la nuova API Bidirectional Stream. Il client apre una connessione HTTP2 al runtime di SageMaker AI e SageMaker AI crea automaticamente una connessione WebSocket verso il container. In questo modo si possono elaborare frame audio in streaming e restituire trascrizioni parziali man mano che vengono prodotte. Puoi eseguire automaticamente qualsiasi container che implementi un gestore WebSocket conforme al contratto di SageMaker AI, utilizzando modelli di sintesi vocale in tempo reale come Deepgram senza apportare modifiche. In questo modo puoi evitare mesi di sviluppo dell'infrastruttura e implementare agenti vocali con trascrizione continua, dedicando le risorse al miglioramento delle prestazioni del modello.

Lo streaming bidirezionale è disponibile nelle seguenti regioni AWS: Canada (Centrale), Sud America (San Paolo), Africa (Città del Capo), Europa (Parigi), Asia Pacifico (Hyderabad), Asia Pacifico (Giacarta), Israele (Tel Aviv), Europa (Zurigo), Asia Pacifico (Tokyo), AWS GovCloud (Stati Uniti-Ovest), AWS GovCloud (Stati Uniti-Est), Asia Pacifico (Mumbai), Medio Oriente (Bahrein), Stati Uniti occidentali (Oregon), Cina (Ningxia), Stati Uniti occidentali (California settentrionale), Asia Pacifico (Sydney), Europa (Londra), Asia Pacifico (Seoul), Stati Uniti orientali (Virginia settentrionale), Asia Pacifico (Hong Kong), Stati Uniti orientali (Ohio), Cina (Pechino), Europa (Stoccolma), Europa (Irlanda), Medio Oriente (Emirati Arabi Uniti), Asia Pacifico (Osaka), Asia Pacifico (Melbourne), Europa (Spagna), Europa (Francoforte), Europa (Milano) e Asia Pacifico (Singapore).

Per saperne di più, consulta qui il blog AWS News e qui la documentazione di SageMaker AI.