Amazon SageMaker presenta nuevas capacidades para acelerar el escalado de la inferencia de IA generativa

Publicado en: 6 de dic de 2024

Nos complace anunciar dos nuevas funciones de SageMaker Inference que mejoran significativamente el despliegue y el escalado de los modelos de IA generativa: el almacenamiento en caché de contenedores y el cargador rápido de modelos. Estas innovaciones abordan los desafíos críticos para escalar los modelos de lenguaje de gran tamaño (LLM) de manera eficiente, lo que permite tiempos de respuesta más rápidos a los picos de tráfico y un escalado más rentable. Al reducir los tiempos de carga de los modelos y acelerar el escalado automático, estas características permiten a los clientes mejorar la capacidad de respuesta de sus aplicaciones de IA generativa a medida que fluctúa la demanda, lo que beneficia especialmente a los servicios con patrones de tráfico dinámicos.

El almacenamiento en caché de contenedores reduce drásticamente el tiempo necesario para escalar los modelos de IA generativa para su inferencia mediante el almacenamiento previo en caché de las imágenes de los contenedores. Esto elimina la necesidad de descargarlos al ampliarlos, lo que se traduce en una reducción significativa del tiempo de escalado para los puntos de enlace del modelo de IA generativa. El cargador rápido de modelos transmite los pesos de los modelos directamente desde Amazon S3 al acelerador, lo que permite cargar los modelos mucho más rápido en comparación con los métodos tradicionales. Estas funciones permiten a los clientes crear políticas de escalado automático con mayor capacidad de respuesta, lo que permite a SageMaker añadir nuevas instancias o copias de modelos rápidamente cuando se alcanzan los umbrales definidos y de esta forma mantener un rendimiento óptimo durante los picos de tráfico y, al mismo tiempo, gestionar los costos de forma eficaz.

Se puede acceder a estas nuevas capacidades en todas las regiones de AWS en las que esté disponible Amazon SageMaker Inference. Para obtener más información, consulte nuestra documentación para obtener una guía de implementación detallada.