Publicado: Nov 29, 2023

Temos o prazer de anunciar novos recursos no Amazon SageMaker que ajudam os clientes, em média, a reduzir os custos de implantação do modelo em 50% e a atingir uma latência de inferência 20% menor. Os clientes podem implantar vários modelos na mesma instância para melhor utilizar os aceleradores subjacentes. O SageMaker monitora ativamente as instâncias que estão processando solicitações de inferência e encaminha as solicitações de forma inteligente com base nas instâncias disponíveis.

Esses atributos estão disponíveis para a inferência em tempo real do SageMaker, o que facilita a implantação de modelos de machine learning. Agora você pode criar um ou mais InferenceComponents e implantá-los em um endpoint do SageMaker. Um InferenceComponent abstrai seu modelo de machine learning e permite que você atribua CPUs, GPU ou aceleradores do Neuron e políticas de ajuste de escala por modelo. Colocaremos de forma inteligente cada modelo em todas as instâncias por trás do endpoint para maximizar a utilização e economizar custos. Cada modelo pode ser ter a escala aumentada e reduzida verticalmente até zero de forma independente. Isso libera os recursos de hardware para que outros modelos usem os aceleradores na instância. Cada modelo também emitirá suas próprias métricas e logs para ajudar você a monitorar e depurar quaisquer problemas. Adicionamos um novo algoritmo de roteamento Least Outstanding Requests (Solicitações menos atrasadas), que leva a uma distribuição mais uniforme das solicitações, resultando na redução da latência de ponta a ponta. 

Esses novos atributos estão disponíveis em: Ásia-Pacífico (Tóquio, Seul, Mumbai, Singapura, Sydney, Jacarta), Canadá (Central), Europa (Frankfurt, Estocolmo, Irlanda, Londres), Oriente Médio (EAU), América do Sul (São Paulo), Leste dos EUA (N. da Virgínia, Ohio) e Oeste dos EUA (Oregon).

Saiba mais acessando nossa página de documentação e nossa página do produto.