Publicado en: Sep 9, 2022

Amazon SageMaker permite que los clientes implementen modelos de ML para hacer predicciones (también conocidas como inferencias) para cualquier caso de uso. Ahora, con la configuración del tamaño de volumen máximo de EBS y las cuotas del tiempo de espera, puede implementar modelos grandes (hasta 500 GB) para inferencia en las opciones de tiempo real de Amazon SageMaker e inferencia asincróna. Este lanzamiento permite a los clientes aprovechar las capacidades de inferencia completamente administradas de tiempo real y asíncrona para implementar y administrar grandes modelos de ML tales como variantes de GPT y OPT.

Antes, SageMaker asociaba los volúmenes de EBS de hasta 30 GB a un punto de conexión de SageMaker, que limitaba el tamaño máximo del modelo que podía implementar. Ahora, el tamaño del volumen de EBS se puede configurar hasta un máximo de 500 GB, lo que permite usar modelos más grandes y tener más recursos para las necesidades de inferencia. Además, también se configuró en un máximo de 60 minutos la comprobación del estado del contenedor y las cuotas del tiempo de espera de descarga, lo que permite tener más tiempo para descargar y cargar su modelo y los recursos asociados. En su conjunto, estos cambios le permiten usar SageMaker para implementar modelos más avanzados de aprendizaje profundo con tendencia a un tamaño más grande. Por ejemplo, con las instancias ml.p4d and ml.g5 de reciente lanzamiento, puede usar este cambio para implementar modelos grandes que pueden aprovechar la memoria en múltiples GPU para una inferencia de alto rendimiento.

Estas nuevas opciones de configuración están disponibles en todas las regiones comerciales en las que se encuentre disponible SageMaker.

Para comenzar, lea nuestra documentación aquí. En la publicación de nuestro blog encontrará un ejemplo de caso de uso sobre como aprovechar este cambio junto con DeepSpeed en SageMaker para distribuir modelos grandes en varios dispositivos de GPU para inferencias de alto rendimiento.