Amazon SageMaker apresenta o Scale Down to Zero para inferência de IA para ajudar os clientes a economizar custos
Temos o prazer de anunciar o Scale Down to Zero (Redução vertical da escala para zero), um novo recurso do Amazon SageMaker Inference que permite que os endpoints escalem para zero as instâncias durante períodos de inatividade. Esse atributo pode reduzir significativamente os custos de execução de inferência usando modelos de IA, tornando-o particularmente benéfico para aplicações com padrões de tráfego variáveis, como chatbots, sistemas de moderação de conteúdo e outros casos de uso de IA generativa.
Com o Scale Down to Zero, os clientes podem configurar seus endpoints de inferência do SageMaker para escalar automaticamente as instâncias para zero quando não estiverem em uso e, em seguida, aumentar a escala delas verticalmente e de forma rápida quando o tráfego for retomado. Esse recurso é eficaz para cenários com padrões de tráfego previsíveis, tráfego de inferência intermitente e ambientes de desenvolvimento/teste. Implementar o Scale Down to Zero é simples com o SageMaker Inference Components. Os clientes podem configurar políticas de ajuste de escala automático por meio do AWS SDK para Python (Boto3), do SDK do SageMaker para Python ou da AWS Command Line Interface (AWS CLI). O processo envolve a configuração de um endpoint com o ajuste de escala de instâncias gerenciadas habilitado, a configuração de políticas de ajuste de escala e a criação de alarmes do CloudWatch para acionar ações de ajuste de escala.
O Scale Down to Zero agora está disponível em todas as regiões da AWS que oferecem o Amazon SageMaker. Para saber mais sobre como implementar o Scale Down to Zero e otimizar os custos para implantações de IA generativa, acesse nossa página de documentação.