Publicado en: Aug 20, 2021

Presentamos Inferencia asíncrona de Amazon SageMaker, una nueva opción de inferencia de Amazon SageMaker que pone en cola solicitudes entrantes y las procesa de forma asíncrona. Esta opción es ideal para inferencias con tamaños de carga grandes (hasta 1 GB) y/o tiempos de procesado largos (hasta 15 minutos) que necesitan procesarse a medida que llegan las solicitudes. Inferencia asíncrona le permite ahorrar en costos al escalar de manera automática el contador de instancias a cero cuando no hay solicitudes que procesar, de modo que solo paga cuando su punto de enlace está procesando solicitudes.

Con la incorporación de la inferencia asíncrona, Amazon SageMaker brinda tres opciones para implementar modelos de machine learning formados para generar inferencias en nuevos datos. La inferencia en tiempo real es adecuada para cargas de trabajo con tamaños de carga de hasta 6 MB y que necesitan ser procesadas con requisitos de baja latencia de milisegundos o segundos. La transformación por lotes es ideal para predicciones sin conexión sobre grandes lotes de datos que están disponibles de manera anticipada. La nueva opción de inferencia asíncrona es ideal para cargas de trabajo en las que los tamaños de solicitud son grandes (hasta 1 GB) y los tiempos de procesamiento de inferencias se miden en minutos (hasta 15 minutos). Los ejemplos de cargas de trabajo para inferencia asíncrona incluyen la ejecución de predicciones para imágenes de alta resolución generadas desde un dispositivo móvil en diferentes intervalos durante el día y proporcionar respuestas en minutos tras recibir una solicitud. Para aquellos casos de uso que pueden tolerar una penalización de arranque en frío, es posible reducir verticalmente el contador de instancias de punto de enlace a cero cuando no haya solicitudes pendientes y escalar horizontalmente a medida que lleguen nuevas solicitudes, de modo que solo pague por la duración de los puntos de enlace que procesan solicitudes de manera activa.

La creación de un punto de enlace de inferencias asíncrono es similar a la de un punto de enlace en tiempo real. Puede utilizar sus modelos de Amazon SageMaker existentes y solo necesita especificar parámetros de configuración específicos de inferencia asíncrona adicionales al crear su configuración de punto de enlace. Para invocar el punto de enlace, es necesario ubicar la carga de solicitud en Amazon S3 y brindar un puntero para la carga de trabajo como parte de la solicitud de invocación. Una vez invocado, Amazon SageMaker pone en cola la solicitud de procesado y devuelve una ubicación de salida como respuesta. Tras el procesamiento, Amazon SageMaker ubica la respuesta de inferencia en la ubicación de Amazon S3 que se brindó anteriormente. Puede elegir de manera opcional recibir notificaciones de error o tarea realizada correctamente mediante Simple Notification Service (SNS).

Para una descripción detallada de cómo crear, invocar y monitorear puntos de enlace de inferencias asíncronas, consulte nuestra documentación, la cual contiene además un bloc de notas de ejemplo para ayudarle a comenzar. Si desea obtener más información acerca de los precios, visite la página de precios de Amazon SageMaker. Inferencia asíncrona de Amazon SageMaker está disponible de manera general en todas las regiones comerciales de AWS donde Amazon SageMaker está disponible, salvo Asia-Pacífico (Osaka), UE (Milán) y África (Ciudad del Cabo).