La inferencia de Amazon SageMaker AI ahora admite la transmisión bidireccional

Publicado en: 25 de nov de 2025

La inferencia de Amazon SageMaker AI ahora admite la transmisión bidireccional para la transcripción de voz a texto en tiempo real, lo que permite el procesamiento continuo de la voz en lugar de la entrada por lotes. Los modelos ahora pueden recibir transmisiones de audio y devolver transcripciones parciales de forma simultánea mientras los usuarios hablan, lo que permite crear agentes de voz que procesen la voz con una latencia mínima.

A medida que los clientes crean agentes de voz de IA, necesitan la transcripción de voz en tiempo real para minimizar los retrasos entre la voz del usuario y las respuestas de los agentes. Los científicos de datos y los ingenieros de aprendizaje automático (ML) carecen de una infraestructura gestionada para la transmisión bidireccional, por lo que es necesario crear implementaciones de WebSocket personalizadas y gestionar los protocolos de transmisión. Los equipos dedican semanas a desarrollar y mantener esta infraestructura en lugar de centrarse en la precisión del modelo y las capacidades de los agentes. Con la transmisión bidireccional en la inferencia de Amazon SageMaker AI, puede implementar modelos de conversión de voz a texto invocando su punto enlace con la nueva API de transmisión bidireccional. El cliente abre una conexión HTTP2 con la versión ejecutable de SageMaker AI y SageMaker AI crea automáticamente una conexión WebSocket con su contenedor. Esto puede procesar fotogramas de audio en streaming y devolver transcripciones parciales a medida que se producen. Cualquier contenedor que implemente un controlador WebSocket siguiendo el contrato de SageMaker AI funciona automáticamente y los modelos de voz en tiempo real, como Deepgram, se ejecutan sin modificaciones. Esto elimina meses de desarrollo de la infraestructura, lo que le permite implementar agentes de voz con transcripción continua y, al mismo tiempo, dedicar su tiempo a mejorar el rendimiento del modelo.

El streaming bidireccional está disponible en las siguientes regiones de AWS: Canadá (centro), América del Sur (São Paulo), África (Ciudad del Cabo), Europa (París), Asia Pacífico (Hyderabad), Asia Pacífico (Yakarta), Israel (Tel Aviv), Europa (Zúrich), Asia Pacífico (Tokio), AWS GovCloud (Oeste de EE. UU.), AWS GovCloud (Este de EE. UU.), Asia Pacífico (Bombay), Oriente Medio (Baréin), Oeste de EE. UU. (Oregón), China (Ningxia), Oeste de EE. UU. (Norte de California), Asia Pacífico (Sídney), Europa (Londres), Asia Pacífico (Seúl), Este de EE. UU. (norte de Virginia), Asia Pacífico (Hong Kong), Este de EE. UU. (Ohio), China (Beijing), Europa (Estocolmo), Europa (Irlanda), Oriente Medio (EAU), Asia Pacífico (Osaka), Asia Pacífico (Melbourne), Europa (España), Europa (Fráncfort), Europa (Milán), Asia Pacífico (Singapur).

Para obtener más información, visite el blog de noticias de AWS aquí y la documentación de SageMaker AI aquí.

La inferencia de Amazon SageMaker AI ahora admite la transmisión bidireccional

Aprender

Recursos

Desarrolladores

Ayuda