Amazon SageMaker lanza un escalado automático más rápido para los modelos de IA generativa

Publicado en: 25 de jul de 2024

Nos complace anunciar una nueva funcionalidad en la inferencia de Amazon SageMaker que ayuda a los clientes a reducir el tiempo que tardan sus modelos de IA generativa en escalar automáticamente. Ahora pueden usar métricas de menos de un minuto y reducir significativamente la latencia de escalado general para los modelos de IA. Con esta mejora, los clientes pueden optimizar la capacidad de respuesta de sus aplicaciones de IA generativa a medida que fluctúa la demanda.

Con esta capacidad, los clientes obtienen dos nuevas métricas de CloudWatch de alta resolución: ConcurrentRequestsPerModel y ConcurrentRequestsPerModelCopy. Ambas permiten un escalado automático más rápido. Estas métricas se emiten en un intervalo de 10 segundos y proporcionan una representación más precisa de la carga en el punto de enlace al rastrear la concurrencia real o la cantidad de solicitudes de inferencia en tránsito que procesa el modelo. Los clientes pueden crear políticas de escalado automático utilizando estas métricas de alta resolución para escalar sus modelos implementados en los puntos de enlace de SageMaker. Amazon SageMaker comenzará a agregar nuevas instancias o copias de modelos en menos de un minuto cuando se alcancen los umbrales definidos en estas políticas de escalado automático. Esto permite que los clientes optimicen el rendimiento y la rentabilidad de sus cargas de trabajo de inferencia en SageMaker.

Esta nueva capacidad está disponible en las familias de instancias de acelerador (g4dn, g5, g6, p2, p3, p4d, p4de, p5, inf1, inf2, trn1n, trn1) en todas las regiones de AWS en las que la inferencia de Amazon SageMaker está disponible, excepto en las regiones de China y AWS GovCloud (EE. UU.). Para obtener más información, consulte el blog sobre ML de AWS y nuestra documentación.