Anuncio del enrutamiento de sesiones persistentes para la Inferencia de Amazon SageMaker

Publicado en: 12 de sep de 2024

Hoy anunciamos la disponibilidad del enrutamiento de sesiones persistentes en las inferencias de Amazon SageMaker, que ayuda a los clientes a mejorar el rendimiento y la experiencia de usuario de sus aplicaciones de IA generativa al aprovechar la información previamente procesada. Amazon SageMaker facilita la implementación de modelos de ML, incluidos los modelos fundacionales (FM), para realizar solicitudes de inferencia con la mejor relación precio-rendimiento para cualquier caso de uso.

Al habilitar las sesiones persistentes, todas las solicitudes de la misma sesión se dirigirán a la misma instancia, lo que permitirá a la aplicación de ML reutilizar la información procesada anteriormente para reducir la latencia y mejorar la experiencia del usuario. Esto es particularmente valioso cuando los clientes desean utilizar grandes cargas de datos o necesitan experiencias interactivas fluidas. Al aprovechar sus solicitudes de inferencia anteriores, los clientes ahora pueden aprovechar esta característica para crear aplicaciones de IA innovadoras con reconocimiento del estado en SageMaker. Para ello, los clientes deberán crear un identificador de sesión con su primera solicitud y, a continuación, utilizar ese identificador de sesión para indicar que SageMaker debe dirigir todas las solicitudes posteriores a la misma instancia. Las sesiones también se pueden eliminar una vez finalizadas para liberar recursos para nuevas sesiones.

Esta característica se encuentra disponible en todas las regiones en las que se ofrece SageMaker. Puede obtener más información sobre la implementación de modelos en SageMaker aquí y más información sobre esta característica en nuestra documentación.