Publicado: May 10, 2023
Hoje, temos o prazer de anunciar a disponibilidade geral do suporte de Simultaneidade Provisionada para a Inferência Sem Servidor do Amazon SageMaker. A Simultaneidade Provisionada permite que você implante modelos em endpoints de tecnologia sem servidor com desempenho previsível e alta escalabilidade. Você pode adicionar simultaneidade provisionada aos seus endpoints sem servidor e, para a quantidade predefinida de simultaneidade provisionada, o SageMaker manterá os endpoints prontos para responder às solicitações instantaneamente. A Simultaneidade Provisionada é ideal para clientes que têm tráfego previsível, com baixo throughput.
Com endpoints de tecnologia sem servidor sob demanda, se seu endpoint não receber tráfego por um tempo e, de repente, receber novas solicitações, pode levar algum tempo até que seu endpoint ative os recursos de computação para processar as solicitações. Isso é chamado de inicialização a frio. Uma inicialização a frio também pode ocorrer se suas solicitações simultâneas excederem o uso atual da solicitações simultâneas. Para reduzir a variabilidade em seu perfil de latência, você pode ativar a Simultaneidade Provisionada para seus endpoints de tecnologia sem servidor. Com a simultaneidade provisionada, seus endpoints sem servidor estão sempre prontos e podem atender instantaneamente a picos de tráfego até o número configurado de Simultaneidade Provisionada, sem qualquer inicialização a frio.
Você pode ativar a Simultaneidade Provisionada para endpoints sem servidor a partir do Console da AWS, dos SDKs da AWS ou da AWS Command Line Interface (AWS CLI). A Simultaneidade Provisionada para o SageMaker Serverless Inference costuma estar disponível em todas as regiões da AWS em que o SageMaker Serverless Inference está geralmente disponível.