Amazon SageMaker apresenta novos recursos para acelerar a escalabilidade da inferência de IA generativa
Temos o prazer de anunciar dois novos recursos no SageMaker Inference que aprimoram significativamente a implantação e o dimensionamento de modelos de IA generativa: o Container Caching (Armazenamento em cache de contêineres) e o Fast Model Loader (Carregador rápido de modelos). Essas inovações abordam desafios críticos no dimensionamento eficiente de grandes modelos de linguagem (LLMs), permitindo tempos de resposta mais rápidos a picos de tráfego e ajuste de escala mais econômico. Ao reduzir os tempos de carregamento do modelo e acelerar o ajuste de escala automático, esses atributos permitem que os clientes melhorem a capacidade de resposta das aplicações de IA generativa à medida que a demanda flutua, beneficiando especialmente os serviços com padrões de tráfego dinâmicos.
O Container Caching reduz drasticamente o tempo necessário para escalar modelos de IA generativa para inferência por meio do pré-armazenamento em cache das imagens do contêiner. Isso elimina a necessidade de baixá-los ao aumentar a escala verticalmente, resultando em uma redução significativa no tempo de ajuste de escala para os endpoints de modelos de IA generativa. O Fast Model Loader transmite os pesos dos modelos diretamente do Amazon S3 para o acelerador, carregando modelos muito mais rapidamente do que os métodos tradicionais. Esses recursos permitem que os clientes criem políticas de ajuste de escala automático mais responsivas, permitindo que o SageMaker adicione novas instâncias ou cópias de modelos rapidamente quando os limites definidos forem atingidos, mantendo assim a performance ideal durante picos de tráfego e, ao mesmo tempo, gerenciando os custos com eficiência.
Esses novos recursos estão acessíveis em todas as regiões da AWS que oferecem o Amazon SageMaker Inference. Para saber mais, consulte nossa documentação para obter orientações detalhadas de implementação.