Amazon SageMaker presenta Scale Down to Zero para inferencia de IA para ayudar a los clientes a ahorrar costos
Nos complace anunciar Scale Down to Zero (Desescalar verticalmente a cero), una nueva funcionalidad de Inferencias de Amazon SageMaker que permite a los puntos de enlace escalar a cero instancias durante los períodos de inactividad. Esta característica puede reducir significativamente los costos de ejecución de inferencias mediante modelos de IA, lo que la hace particularmente beneficiosa para las aplicaciones con patrones de tráfico variables, como los chatbots, los sistemas de moderación de contenido y otros casos de uso de IA generativa.
Con Scale Down to Zero, los clientes pueden configurar sus puntos de enlace de inferencia de SageMaker para escalar automáticamente a cero instancias cuando no estén en uso y, a continuación, volver a escalar rápidamente cuando se reanude el tráfico. Esta capacidad es eficaz para escenarios con patrones de tráfico predecibles, tráfico de inferencia intermitente y entornos de desarrollo y pruebas. La implementación de Scale Down to Zero es sencilla con los componentes de inferencia de SageMaker. Los clientes pueden configurar políticas de escalado automático mediante el AWS SDK para Python (Boto3), el SDK de Python de SageMaker o la interfaz de la línea de comandos de AWS (AWS CLI). El proceso implica configurar un punto de enlace con el escalado de instancias administrado habilitado, configurar políticas de escalado y crear alarmas de CloudWatch para activar acciones de escalado.
Scale Down to Zero ya está disponible de forma general en todas las regiones de AWS en las que se admite Amazon SageMaker. Para obtener más información sobre el despliegue de Scale Down to Zero y la optimización de los costos de las implementaciones de IA generativa, visite nuestra página de documentación.