Publicado: Dec 1, 2021

O Amazon SageMaker Serverless Inference é uma nova opção de inferência que permite implantar facilmente modelos de machine learning para inferência sem ter que configurar nem gerenciar a infraestrutura subjacente. Basta selecionar a opção sem servidor ao implantar seu modelo de machine learning, e o Amazon SageMaker provisionará, escalará e desativará automaticamente a capacidade computacional com base no volume de solicitações de inferência. Com o SageMaker Serverless Inference, você paga apenas pela duração da execução do código de inferência e pela quantidade de dados processados, não pelo tempo ocioso.

O Amazon SageMaker Serverless Inference é ideal para aplicações com tráfego intermitente ou imprevisível. Por exemplo, um serviço de chatbot usado por uma empresa de processamento de folha de pagamento experimenta um aumento nas consultas no final do mês, enquanto no restante do mês o tráfego é intermitente. O provisionamento de instâncias para o mês inteiro em tais cenários não é econômico, pois você acaba pagando por períodos ociosos. O Amazon SageMaker Serverless Inference ajuda a lidar com esses tipos de casos de uso ao escalar automaticamente a capacidade computacional com base no volume de solicitações de inferência, sem a necessidade de prever a demanda de tráfego antecipadamente ou gerenciar políticas de escalabilidade. Além disso, você paga apenas pelo tempo de computação para executar seu código de inferência (cobrado em milissegundos) e pela quantidade de dados processados, tornando-o uma opção econômica para workloads com tráfego intermitente. Com a introdução do SageMaker Serverless Inference, o SageMaker agora oferece quatro opções de inferência, expandindo as opções de implantação disponíveis para uma ampla gama de casos de uso. As outras três opções são: SageMaker Real-Time Inference para workloads com requisitos de baixa latência na ordem de milissegundos, SageMaker Batch Transform para executar previsões em lotes de dados e SageMaker Asynchronous Inference para inferências com grandes tamanhos de carga útil ou que requerem longos tempos de processamento. Para saber mais, visite a página de implantação do Amazon SageMaker.

Você pode criar facilmente um endpoint de inferência do SageMaker a partir do console, dos AWS SDKs ou da AWS Command Line Interface (CLI). Para obter as etapas detalhadas sobre como começar, consulte a documentação do SageMaker Serverless Inference, que também inclui um exemplo de notebook. Para obter informações sobre preços, consulte a página de preços do SageMaker. O SageMaker Serverless Inference está disponível em previsualização no Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), Europa (Irlanda), Ásia-Pacífico (Tóquio) e Ásia-Pacífico (Sydney).